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[Mitchell, 1997] 给出了 
一个更形式化的定义：假 
设用 P 来评估计算机程序 
在某任务类: T 上的性能, 
若一个程序通过利用经验 
五在 r 中任务上获得了性 
能改善，则我们就说关于 
: r 和 p , 该程 序对五 进行 
了学习. 


例如 [Hand et al., 2001]. 


Mr 1 A4 / 

弟 1 早绪 


1 1 p| -dtr 

丄■丄 5 I 3 

傍晚小街路面上沁出微雨后的湿润，和煦的细风吹来，抬头看看天边的晚 
霞，嗯,明天又是一个好天气.走到水果摊旁，挑了个根蒂蜷缩、敲起来声音浊 
响的青绿西瓜，一边满心期待着皮薄肉厚瓤甜的爽落感，一边愉快地想着，这学 
期狠下了工夫，基础概念弄得清清楚楚，算法作业也是信手拈来，这门课成绩一 
定差不了！ 

希望各位在学期结束时有这样的感觉.作为开场，我们先大致了解一下什 
么是“机器学习” （machine learning). 

回头看第一段话，我们会发现这里涉及很多基于经验做出的预判.例如，为 
什么看到微湿路面、感到和风、看到晚霞，就认为明天是好天呢？这是因为在 
我们的生活经验中已经遇见过很多类似情况，头一天观察到上述特征后，第二 
天天气通常会很好.为什么色泽青绿、根蒂蜷缩、敲声浊响，就能判断出是正 
熟的好瓜？因为我们吃过、看过很多西瓜，所以基于色泽、根蒂、敲声这几个 
特征我们就可以做出相当好的判断.类似的，我们从以往的学习经验知道，下足 
了工夫、弄清了概念、做好了作业，自然会取得好成绩.可以看出，我们能做出 
有效的预判，是因为我们已经积累了许多经验，而通过对经验的利用，就能对新 
情况做出有效的决策. 

上面对经验的利用是靠我们人类自身完成的.计算机能帮忙吗？ 

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经 
验来改善系统自身的性能.在计算机系统中，“经验”通常以“数据”形式存 
在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模 
型” （model) 的算法，即“学习算法” (learning algorithm). 有了学习算法，我 
们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时(例 
如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜).如果说 
计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究 
关于“学习算法”的学问. 

本书用“模型”泛指数据中学得的结果.有文献用“模型”指全局性结 
果(例如一棵决策树)，而用“模式”指局部性结果(例如一条规则). 
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有时整个数据集亦称一 
个“样本”，因为它可看 
作对样本空间的一个 采样； 
通过上下文可判断出“样 
本”是指单个示例还是数' 
据集 • 


训练样本亦称“训练示 
例” (training instance ) 或 
“训练例”. 


学习算法通常有参数需 
设置，使用不同的参数值 
和(或)训练数据，将产生 
不同的结果. 


将 “ label ” 译为“标 
记”而非“标签”，是考 
虑到英文中 “ label ” 既可 
用作名词、也可用作动词. 


要进行机器学习，先要有数据.假定我们收集了一批关于西瓜的数据 5 例 
如(色泽=青绿；根蒂==赌缩；敲声=池响)，（色泽=乌黑；根蒂=稍滕；敲声=沉 
闷)，（色泽= 浅白； 根蒂= 硬挺； 敲声=清脆) ，.……， 每对括号内是一条记录， 
“=”意思是“取值为” 

这组记录的集合称为一个“数据集” (data set ), 其中每条记录是关于一 
个事件或对象(这里是一个西瓜)的描述，称为一个“示例” （ instance ) 或“样 
本” ( sample ). 反映事件或对象在某方面的表现或性质的事项，例如“色泽” 

“根蒂” “敲声”，称为“属性” （ attribute ) 或“特征” ( feature ); 属性上的取 
值，例如“青绿” “乌黑’’，称为“属性值” (attribute value ). 属性张成的空 
间称为“属性空间 ” （attribute space )、 “样本空间 ” （sample space ) 或“输入 
空间”.例如我们把“色泽” “根蒂” “敲声”作为三个坐标轴，则它们张成 
一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位 
置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个 
“特征向量” (feature vector ). 

一 般地， 令 D = { xi , x 2 ,. .. ,® m } 表示包含 m 个示例的数据集，每个 
示例由 d 个属性描述(例如上面的西瓜数据使用了 3个属性)，则每个示例 
Xi — ( Al ; 阳;…；叫 d ) 是 d 维样本空间 T 中的 一 '个向量，6 Af ， 其中巧是 
Xi 在第 j 个属性上的取值(例如上述第3个西瓜在第2个属性上的值是“硬 
挺”）， d 称为样本叫的“维数” ( dimensionality ). 

从数据中学得模型的过程称为“学习” （ learning ) 或“训练” ( training ), 
这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为“训练 
数据 ” （training data ) ,其中每个样本称为一个“训练样本” (training sample ) 5 
训练样本组成的集合称为“训练集” (training set ). 学得模型对应了关于数据 
的某种潜在的规律，因此亦称 “ 假设” ( hypothesis ); 这种潜在规律自身，则称 
为“真相”或 “ 真实” ( ground - truth ), 学习过程就是为了找出或逼近真相.本 
书有时将模型称为“学习器” ( learner ), 可看作学习算法在给定数据和参数空 
间上的实例化. 

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型，仅 
有前面的示例数据显然是不够的.要建立这样的关于 “ 预测” （ prediction ) 的 
模型，我们需获得训练样本的“结果”信息，例如 “(( 色泽= 青绿； 根蒂= 蜷缩; 
敲声=浊响)，好瓜)”.这里关于示例结果的信息，例如“好瓜”，称为“标 
记” ( label ); 拥有了标记信息的示例，则称为 “ 样例” （ example ). —般地，用 
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若将标记看作对象本身 
的一部分，则“样例”有 
时也称为“样本”. 


亦称“负类” 


亦称“测试示例” 
(testing instance ) 或“测 

试例”. 


否则标记信息直接形成 
了鎮划分；但也有例外情 
况，参见 13.6 节. 

亦称“有导师学习”和 
“无导师学 习”. 

更确切地说，是“未见 
示例” (unseen instance ). 


现实任务中样本空间的 
规模通常很大(例如20个 
属性，每个属性有10个可 
能取值，则样本空间的规 
模已达10 20 ). 



( x hyi ) 表示第 i 个样例，其中％ G y 是示例 A 的标记， y 是所有标记的集合, 
亦称“标记空间 ” （label space ) 或“输出空间”. 

若我们欲预测的是离散值，例如“好瓜” “坏瓜” 5 此类学习任务称为 
“分类” ( classification ); 若欲预测的是连续值，例如西瓜成熟度0.95、 0.37, 
此类学习任务称为“回归” （ regression ). 对只涉及两个类别的“二分 
类” (binary classification ) 任务，通常称其中一个类为“正类” (positive class ) , 
另一个类为“反类” (negative class ); 涉及多个类别时，则称为“多分 
类” ( multi-class classification ) 任务， 一 般地，预测任务是希望通过对训练 
集 {( xuy !), ( x 2 , ?/ 2 ) 5 • • • , ( x m , y m )} 进行学习，建立一个从输入空间 I 到输出 
空间 y 的映射 / 4 y . 对二分类任务，通常令 y = {—1， +1} 或{0, 1}; 对 

多分类任务， |； V | > 2;对回归任务，^ = M , M 为实数集. 

学得模型后，使用其进行预测的过程称为“测试” ( testing ), 被预测的样本 
称为“测试样本” (testing sample ). 例如在学得/后，对测试例 cc ， 可得到其预 
测标记 y = f ( x ). 

我们还可以对西瓜做“聚类” （ clustering )， 即将训练集中的西瓜分成若干 
组，每组称为一个“簇” （ cluster ); 这些自动形成的簇可能对应一些潜在的概念 
划分，例如“浅色瓜” “深色瓜”，甚至“本地瓜” “外地瓜”.这样的学习过 
程有助于我们了解数据内在的规律， 能为更 深入地分析数据建立基础.需说明 
的是，在聚类学习中，“浅色瓜” “本地瓜”这样的概念我们事先是不知道的, 
而且学习过程中使用的训练样本通常不拥有标记信息. 

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督 
学习 ” （supervised learning ) 和“无监督学习” (unsupervised learning ), 分类 
和回归是前者的代表，而聚类则是后者的代表. 

需注意的是，机器学习的目标是使学得的模型能很好地适用于“新样本”， 
而不是仅仅在训练样本上工作得 很好； 即便对聚类这样的无监督学习任务，我 
们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于 
新样本的能力，称为“泛化” （ generalization ) 能力.具有强泛化能力的模型能 
很好地适用于整个样本空间.于是，尽管训练集通常只是样本空间的一个很小 
的釆样，我们仍希望它能很好地反映出样本空间的特性，否则就很难期望在训 
练集上学得的模型能在整个样本空间上都工作得很好.通常假设样本空间中全 
体样本服从一个未知“分布” ( distribution ) V ,我们获得的每个样本都是独立 
地从这个分布上采样获得的，即“独立同分布” (independent and identically 
distributed , 简称 Lid .). 一般而言，训练样本越多，我们得到的关于的信息 
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越多，这样就越有可能通过学习获得具有强泛化能力的模型. 

1.3 假设空间 

归纳 ( induction ) 与演绎 ( deduction ) 是科学推理的两大基本 手段. 前者是从 
特殊到一般的“泛化” （ generalization ) 过程，即从具体的事实归结出一般性规 
律；后者则是从一般到特殊的“特化” （ specialization ) 过程，即从基础原理推演 
出具体状况.例如，在数学公理系统中，基于一组公理和推理规则推导出与之 
相洽的定理，这是 演绎； 而“从样例中学习”显然是一个归纳的过程，因此亦称 
“归纳学习” (inductive learning ). 

归纳学习有狭义与广义 之分， 广义的归纳学习大体相当于从样例中学习， 
而狭义的归纳学习则要求从训练数据中学得概念 ( concept ), 因此亦称为“概念 
学习”或“概念形成”.概念学习技术目前研究、应用都比较少，因为要学得 
泛化性能好且语义明确的概念实在太困难了，现实常用的技术大多是产生“黑 
箱”模型.然而，对概念学习有所了解，有助于理解机器学习的一些基础思想. 

概念学习中最基本的是布尔概念学习，即对“是” “不是”这样的可表示 
为0/1布尔值的目标概念的学习.举一个简单的例子，假定我们获得了这样一 
个训练数据集： 

表 1.1 西瓜数据集 


这里要学习的目标是“好瓜”.暂且假设“好瓜”可由“色泽” “稂蒂” 

“敲声”这三个因素完全确定，换言之，只要某个瓜的这三个属性取值明确了， 
我们就能判断出它是不是好瓜.于是，我们学得的将是“好瓜是某种色泽、某 
种根蒂、某种敲声的瓜”这样的概念，用布尔表达式写出来则是“好瓜 o ( 色 
如泽 =?) A (根蒂 =?) A (敲声 =?) ”，这里“？”表示尚未确定的取值，而我们的任 
U V A 务就是通过对表 1.1 的训练集进行学习，把“？”确定下来. 

读者可能马上发现，表 1.1 第一行：“(色泽=青绿 ） A (根蒂=蜷缩 ） A (敲 
声二浊响)”不就是好瓜吗？是的，但这是一个已见过的瓜，别忘了我们学习的 
目的是“泛化”，即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的 
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“记住”训练样本，就 
是所谓的“机械学习” 
[Cohen and Feigenbaum, 
1983], 或称“死记硬背式 
学习”，参见 1.5 节. 


这里我们假定训练样 
本不含噪声，并且不考虑 
“非青绿”这样的操 
作.由于训练集包含正例, 
因此0假设自然不出现. 


有许多可能的选择，如 
在路径上自顶向下与 自底 
向上同时进行，在操作上 
只删除与正例不一致的假 
设等. 


能力.如果仅仅把训练集中的瓜“记住”，今后再见到一模一样的瓜当然可判 
断，但是,对没见过的瓜，例如“(色泽=浅白 ） A (根蒂=蜷缩 ） A (敲声=浊响)” 
怎么办呢？ 

我们可以把学习过程看作一个在所有假设 ( hypothesis ) 组成的空间中进行 
搜索的过程，搜索目标是找到与训练集“匹配”（叫的假设，即能够将训练集中 
的瓜判断正确的假设.假设的表示一旦确定，假设空间及其规模大小就确定了. 
这里我们的假设空间由形如“(色泽 =?) A (根蒂 =?) A (敲声 =?) ”的可能取值 
所形成的假设组成.例如色泽有“青绿” “乌黑” “浅白”这三种可能取值; 
还需考虑到，也许“色泽”无论取什么值都合适，我们用通配符来表示， 
例如“好瓜 O (色泽= *) A (根蒂=蜷缩 ） A (敲声=浊响)”，即“好瓜是根蒂蜷 
缩、敲声浊响的瓜，什么色泽都行”.此外，还需考虑极端情况：有可能“好 
瓜”这个概念根本就不成立，世界上没有“好瓜”这种 东西； 我们用0表示这 
个假设.这样，若“色泽” “根蒂” “敲声”分别有3、2、2种可能取值，则我 
们面临的假设空间规模大小为4 x 3 x 3 + 1 = 37. 图 1.1 直观地显示出了这个 
西瓜问题假设空间. 



图 1.1 西瓜问题的假设空间 

可以有许多策略对这个假设空间进行搜索，例如自顶向下、从一般到特殊， 
或是自底向上、从特殊到一般，搜索过程中可以不断删除与正例不一致的假 
设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本 
能够进行正确判断)的假设，这就是我们学得的结果. 

需注意的是，现实问题中我们常面临很大的假设空间，但学习过程是基于 
有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在着一个与 
训练集一致的“假设集合”，我们称之为“版本空间 ” （version space ). 例如， 
在西瓜问题中，与表 1.1 训练集所对应的版本空间如图 1.2 所示. 
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尽可能特殊即“适用情 
形尽可能 少”； 尽可能一 
般即“适用情形尽可能 
多” • 

对“根蒂”还是对“敲 
声”更重视,，看起来和属 
性选择，亦称“特征选 
择” (feature selection ) 有 
关，但需注意的是,机器学 
习中的特征选择仍是基于 
对训练样本的分析进行的, 
而在此处我们并非基于特 
征选择做出对“根蒂”的 
重视； 这里对“根蒂”的 
信赖可视为基于某种领域 
知识而产生的归纳偏好. 
关于特征选择方面的内容 
参见第11章. 



图 1.2 西瓜问题的版本空间 

1.4 归纳偏好 

通过学习得到的模型对应了假设空间中的一个假设.于是，图 1.2 的西瓜 
版本空间给我们带来一个 麻烦： 现在有三个与训练集一致的假设，但与它们 
对应的模型在面临新样本的时候，却会产生不同的输出.例如，对(色泽= 青绿; 
根蒂=蜷缩；敲声=沉闷)这个新收来的瓜，如果我们采用的是“好瓜 e ( 色 
泽 = A (根蒂=蜷缩 ） A (敲声= *)” ，那么将会把新瓜判断为好瓜，而如果釆 
用了另外两个假设，则判断的结果将不是好瓜.那么，应该釆用哪一个模型(或 
假设)呢？ 

若仅有表 1.1 中的训练样本，则无法断定上述三个假设中哪一个“更好”. 
然而，对于一个具体的学习算法而言，它必须要产生一个模型.这时，学习算 
法本身的“偏好”就会起到关键的作用.例如，若我们的算法喜欢“尽可能特 
殊”的模型，则它会选择“好瓜 O (色泽= *) A (根蒂=蜷缩） A (敲声=浊响) ”； 
但若我们的算法喜欢“尽可能一般”的模型，并且由于某种原因它更“相信” 
根蒂，则它会选择“好瓜 O (色泽 = A (根蒂=蜷缩） A (敲声= *)” . 机器学习 
算法在学习过程中对某种类型假设的偏好，称为“归纳偏好 ” （inductive bias )， 
或简称为“偏好”. 

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看 
似在训练集上 “ 等效”的假设所迷惑，而无法产生确定的学习结果.可以想象, 
如果没有偏好，我们的西瓜学习算法产生的模型每次在进行预测时随机抽选 
训练集上的等效假设，那么对这个新瓜“(色泽=青绿；根蒂=蜷缩；敲声=沉 
闷)”，学得模型时而告诉我们它是好的、时而告诉我们它是不好的，这样的学 
习结果显然没有意义. . ^ 

归纳偏好的作用在图 1.3 这个回归学习图示中可能更直观.这里的每个训 
练样本是图中的一个点 ( x ， y )， 要学得一个与训练集一致的模型，相当于找到一 
条穿过所有训练样本点的曲线.显然，对有限个样本点组成的训练集，存在着 
很多条曲线与其一致.我们的学习算法必须有某种偏好，才能产出它认为“正 
确”的模型.例如，若认为相似的样本应有相似的输出(例如，在各种属性上都 






图 1.3 存在多条曲线与有限样本训练集一致 


很相像的西瓜，成熟程度应该比较接近)，则对应的学习算法可能偏好图 1.3 中 
比较“平滑”的曲线 A 而不是比较“崎岖”的曲线 B . 

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进 
行选择的启发式或“价值观”.那么，有没有一般性的原则来引导算法确立 
“正确的”偏好呢？ “奥卡姆剃刀” （ Occam’s razor ) 是一种常用的、自然科学 
研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”.如 
果采用这个原则，并且假设我们认为“更平滑”意味着“更简单”（例如曲线 
A 更易于描述，其方程式是& = - x 2 + 6 x + 1，而曲线 B 则要复杂得 多)， 则在 
图 1.3 中我们会自然地偏好“平滑”的曲线 A . 

然而，奥卡姆剃刀并非唯一可行的原则.退一步说，即便假定我们是奥卡姆 
剃刀的铁杆拥趸，也需注意到，奥卡姆剌刀本身存在不同的诠释，使用奥卡姆剃 
刀原则并不平凡.例如对我们已经很熟悉的西瓜问题来说，“假设1 :好瓜^ 
(色泽= *) A (根蒂=蜷缩 ） A (敲声=浊响)”和假设2: “好瓜 e (色泽= *) 八 
(根蒂=蜷缩 ） A (敲声= *)” 这两个假设，哪一个更“简单”呢？这个问题并不 
简单，需借助其他机制才能解决. 

事实上，归纳偏好对应了学习算法本身所做出的关于“什么样的模型更 
好，， 的假设.在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否 
与问题本身匹配，大多数时候直接决定了算法能否取得好的性能. 

让我们再回头看看图 1.3. 假设学习算法基于某种归纳偏好产生了对应 
于曲线 A 的模型，学习算法珥基于另一种归纳偏好产生了对应于曲线 B 的模 
型.基于前面讨论的平滑曲线的某种“描述简单性”，我们满#信心地期待算 
法心比 A 更好.确实，图 1.4 ⑷显示出，与 B 相比， A 与训练集外的样本更一 
致； 换言之， A 的泛化能力比 B 强. 



这里只用到一些非常基 
础的数学知识，只准备读 
第1章且有“数学恐惧” 
的读者可以跳过这个部分 
而不会影响理解，只需相 
信，上面这个看起来“匪 
夷所思”的结论确实是成 
立的. 


若/均勾分布，则有一 
半的/对的预测与 h ( x ) 
不一致. 


第1章绪 论 




图 1.4 没有免费的午餐.（黑 点： 训练 样本； 白点：测试样本） 

但是，且慢！虽然我们希望并相信比 A 更好，但会不会出现图 1.4( b ) 的 
情况：与 A 相比， B 与训练集外的样本更一致？ 

很遗憾，这种情况完全可能出现.换言之，对于一个学习算法 £ a , 若它在某 
些问题上比学习算法☆好，则必然存在另一些问题，在那里比 A 好.有趣 
的是，这个结论对任何算法均成立，哪怕是把本书后面将要介绍的一些聪明算 
法作为 £ a 而将“随机胡猜”这样的笨拙算法作为惊讶吗？让我们看看下 
面这个简短的讨论： 

为简单起见，假设样本空间％和假设空间九都是离散的.令 P { h \ X , Z a ) 
代表算法 £ a 基于训练数据 X 产生假设/ I 的概率，再令/代表我们希望学习的 
真实目标函数 . 的“训练集外误差”，即公^^在训练集之外的所有样本上的 
误差为 

E ote ( 2 a \ XJ)^Yl E P ( x ) l ( h ( x )^ f ( x )) P ( h \ X ^ a ) , (1.1) 

h xex-x 

其中 I ㈠ 是指示函数，若 • 为真则取值1，否则取值 0. 

考虑二分类问题，且真实目标函数可以是任何函数1 4 {0,1}, 函数空间 
* 对所有可能的/按均匀分布对误差求和，有 

J 2 E ote (£ a \ XJ ) = EE E P ( x ) l ( h ( x ) ^ f ( x )) P ( h \ X ^ a ) 

f f h seen 

=E p ^ x ) E p ^ h I ^ E l ^ x ) ^ 

xex-x h f 

=E p(x)J2 p ( h \ x ^-)l 2m 

xex-x h 

X ： P{x)Y,P{h\X^ a ) 

x£X—X h 



1.4 归纳偏好 


严格的 NFL 定理证明比 
这里的筒化论述繁难得多. 



2 阶 


■1 


E k 

xEX—X 


- 2 ) 


式 (1.2) 显示出，总误差竟然与学习算法无关!对于任意两个学习算法公&和 

d /|、i JjfXT - fe * 

公6,我彳1]郡有 

^2 E ote (2 a \ XJ )^ J 2 E ote (^ b \ XJ ) , (1.3) 

f f 

也就是说，无论学习算法£«多聪明、学习算法為多笨拙，它们的期望性能竟 
然相同！这就是“没有免费的午餐”定理 （No Free Lunch Theorem , 简称 NFL 
定理） [ Wolpert , 1996; Wolpert and Macready , 1995]. 

这下子，读者对机器学习的热情可能被一盆冷水浇透了：既然所有学习算 
法的期望性能都跟随机胡猜差不多，那还有什么好学的？ 

我们需注意到， NFL 定理有一个重要 前提： 所有“问题”出现的机会相 
同、或所有问题同等重要.但实际情形并不是这样.很多时候，我们只关注自 
己正在试图解决的问题(例如某个具体应用任务)，希望为它找到一个解决方案， 
至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案，我们并不 
关心.例如，为了快速从 A 地到达 B 地，如果我们正在考虑的 A 地是南京鼓 • 
楼、 B 地是南京新街口，那么“骑自行车”是很好的解决方案；这个方案对 A 
地是南京鼓楼、 B 地是北京新街口的情形显然很糟糕，但我们对此并不关心. 

事实上，上面 NFL 定理的简短论述过程中假设了 /的均匀分布，而实际情 
形并非如此.例如，回到我们熟悉的西瓜问题,考虑{假设 h 好瓜 e (色泽= *) 

A (根蒂=蜷缩 ） A (敲声=浊响) } 和 { 假设 2 :好瓜 e (色泽= *) A (根蒂=硬挺） 

A (敲声=清脆)}.从 NFL 定理可知，这两个假设同样好.我们立即会想到符 
合条件的例子，对好瓜(色泽= 青绿； 席蒂= 蜷缩； 敲声=浊响)是假设1更好，而 
对好瓜(色泽=乌黑；根蒂=硬挺；敲声=清脆)则是假设2更好.看上去的确是 
这样.然而需注意到，“(根蒂= 蜷缩； 敲声=浊响广的好瓜很常见，而“(根 
蒂= 硬挺; 敲声二清脆)”的好瓜罕见，甚至不存在. 

所以， NFL 定理最重要的寓意，是让我们清楚地认识到，脱离具体问题，空 
泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在的问题，则所 
有学习算法都一样好.要谈论算法的相对优劣，必须要针对具体的学习问题；在 
某些问题上表现好的学习算法，在另一些问题上却可能不尽如人意，学习算法 
自身的归纳偏好与问题是否相配，往往会起到决定性的作用. 




1.5 发展历程 


所谓“知识就是力量”. 

1965年 ， Feigenbaum 主 
持研制了世界上第一个专 
家系统 DENDRAL . 


参见 p .22. 


IWML 后来发展为国际 
机器学习会议 ICML. 


机器学习是人工智能 (artificial intelligence ) 研究发展到一定阶段的必然产 
物.二十世纪五十年代到七十年代初，人工智能研究处于“推理期”，那时人们 
以为只要能赋予机器逻辑推理能力，机器就能具有智能.这一阶段的代表性工 
作主要有 A . Newell 和 H . Simon 的“逻辑理论家 ” （Logic Theorist ) 程序以及 
此后的“通用问题求解” (General Problem Solving ) 程序等，这 些工作 在当时 
取得了令人振奋的结果.例如，“逻辑理论家”程序在1952年证明了著名数学 
家罗素和怀特海的名著《数学原理》中的38条定理，在1963年证明了全部52 
条定理，特别值得一提的是，定理 2.85 甚至比罗素和怀特海证明得更巧妙 . A . 
Newell 和 H . Simon 因为这方面的工作获得了 1975年图灵奖.然而，随着研究 
向前发展，人们逐渐认识到，仅具有逻辑推理能力是远远实现不了人工智能的. 
E . A . Feigenbaum 等人认为，要使机器具有智能，就必须设法使机器拥有知识. 
在他们的倡导下，从二十世纪七十年代中期开始，人工智能研究进入了 “知识 
期”.在这一时期，大量专家系统问世，在很多应用领域取得了大量成果 . E . A . 
Feigenbaum 作为“知识工程”之父在1994年获得图灵奖.但是，人们逐渐认 
识到，专家系统面临“知识工程瓶颈”，简单地说，就是由人来把知识总结出来 
再教给计算机是相当困难的.于是， 一 些学者想到，如果机器自己能够学习知识 
该多好！ 

事实上，图灵在1950年关于图灵测试的文章中，就曾提到了机器学习的可 
能；二十世纪五十年代初已有机器学习的相关研究，例如 A . Samuel 著名的跳 
棋程序.玉十年代中后期，基于神经网络的“连接主义” （ connectionism ) 学习 
开始出现 5 代表性工作有 F . Rosenblatt 的感知机 ( Perceptron )、 B . Widrow 的 
Adaline 等.在六七十年代，基于逻辑表示的“符号主义” （ symbolism ) 学习技 
术蓬勃发展，代表性王作有 P . Winston 的“结构学习系统”、 R . S . Michalski 
等人的“基于逻辑的归纳学习系统”、 E . B . Hunt 等人的“概念学习系统” 
等； 以决策理论为基础的学习技术以及强化学习技术等也得到发展，代表性工 
作有 N . J . Nilson 的“学习机器 ”等； 二十多年后红极一时的统计学习理论的 
一些奠基性结果也是在这个时期取得的. 

1980年夏,在美国卡耐基梅隆大学举行了第一届机器学习研讨会 ( IWML ); 
同年，《策略分析与信息系统》连出三期机器学习专辑；1983年, Tioga 出版社 
出版了 R . S . Michalski 、 J . G . Carbonell 和 T . Mitchell 主编的《机器学习：一 
种人工智能途径 》 [Michalski et al ., 1983], 对当时的机器学习研究工作进行了 
总结；1986年，第一本机器学习专业期刊 Machine Learning 创刊；1989年，人 
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参见第4章. 

这时实际是 ILP 的前身. 
参见第15章. 


工智能领域的权威期刊 Artificial Intelligence 出版机器学习专辑，刊发了当时 
一些比较活跃的研究工作，其内容后来出现在 J . G . Carbonell 主编、 MIT 出 
版社1990年的《机器学习：范型与方法》 [ Carbonell , 1990] 一书中 . 总的来看， 
二十世纪八十年代是机器学习成为一个独立的学科领域、各种机器学习技术 
百花初绽的时期. 

R . S . Michalski 等人 [Michalski et al ., 1983] 把机器学习研究划分为“从样 
例中学习” “在问题求解和规划中学习” “通过观察和发现学习” “从指令 
中学习”等 种类； E . A . Feigenbmim 等人在著名的《人工智能手册》（第三卷) 
[Cohen and Feigenbaum , 1983] 中，则把机器学习划分为“机械学习” “示教 
学习” “类比学习”和“归纳学习”.机械学习亦称“死记硬背式学习”，即 
把外界输入的信息全部记录下来，在需要时原封不动地取出来使用，这实际上 
没有进行真正的学习，仅是在进行信息存储与检索；示教学习和类比学习类似 
于 R . S . Michalski 等人所说的“从指令中学习”和“通过观察和发现学 习”； 
归纳学习相当于“从样例中学习”，即从训练样例中归纳出学习结果.二十世 
纪八十年代以来，被研究最多、应用最广的是“从样例中学习”（也就是广义 
的归纳学习)，它涵盖了监督学习、无监督学习等，本书大部分内容均属此范畴. 
下面我们对这方面主流技术的演进做一个简单回顾. 

在二十世纪八十年代，“从样例中学习”的一大主流是符号主义学习, 
其代表包括决策树 (decision tree ) 和基于逻辑的学习.典型的决策树学习以信 
息论为基础，以信息熵的最小化为目标，直接模拟了人类对概念进行判定的 
树形流程.基于逻辑的学习的著名代表是归纳逻辑程序设计 (Inductive Logic 
Programming , 简称 ILP ) ， 可看作机器学习与逻辑程序设计的交叉，它使用一 
阶逻辑(即谓词逻辑)来进行知识表示，通过修改和扩充逻辑表达式(例如 Prolog 
表达式)来完成对数据的归纳.符号主义学习占据主流地位与整个人工智能领域 
的发展历程是分不开的.前面说过，人工智能在二十世纪五十到八十年代经历 
了 “推理期”和“知识期”，在“推理期”人们基于符号知识表示、通过演绎 
推理技术取得了很大成就，而在“知识期”人们基于符号知识表示、通过获取 
和利用领域知识来建立专家系统取得了大量成果，因此，在“学习期”的开始， 
符号知识表示很自然地受到青睐.事实上，机器学习在二十世纪八十年代正是 
被视为“解决知识工程瓶颈问题的关键”而走上人工智能主舞台的.决策树学 
习技术由于简单易用，到今天仍是最常用的机器学习技术之一. ILP 具有很强 
的知识表示能力，可以较容易地表达出复杂数据关系，而且领域知识通常可方 
便地通过逻辑表达式进行描述，因此， ILP 不仅可利用领域知识辅助学习，还可 
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参见第 5 章. 


参见第6章. 


参见习题 6.5. 



通过学习对领域知识进行精化和 增强； 然而，成也萧何、败也萧何，由于表示能 
力太强，直接导致学习过程面临的假设空间太大、复杂度极高，因此，问题规模 
稍大就难以有效进行学习，九十年代中期后这方面的研究相对陷入低潮. 

二十世纪九十年代中期之前，“从样例中学习”的另一主流技术是基于神 
经网络的连接主义学习.连接主义学习在二十世纪五十年代取得了大发展，但 
因为早期的很多人工智能研究者对符号表示有特别偏爱，例如图灵奖得主 H . 
Simon 曾断言人工智能是研究“对智能行为的符号化建模”，所以当时连接主 
义的研究未被纳入主流人工智能研究范畴.尤其是连接主义自身也遇到了很大 
的障碍，正如图灵奖得主 M . Minsky 和 S . Papert 在1969年指出，（当时的)神经 
网络只能处理线性分类，甚至对“异或”这么简单的问题都处理不了. 1983年，. 
J . J . Hopfield 利用神经网络求解“流动推销员问题”这个著名的 NP 难题取得 
重大进展，使得连接主义重新受到人们关注.1986年， D . E . Rumelhart 等人重 
新发明了著名的 BP 算法，产生了深远影响.与符号主义学习能产生明确的概 
念表示不同，连接主义学习产生的是“黑箱”模型，因此从知识获取的角度来 
看，连接主义学习技术有明显 弱点； 然而，由于有 BP 这样有效的算法，使得它 
可以在很多现实问题上发挥作用.事实上， BP —直是被应用得最广泛的机器 
学习算法之一.连接主义学习的最大局限是其“试错性”；简单地说，其学习过 
程涉及大量参数，而参数的设置缺乏理论指导，主要靠手工“调参”；夸张一点 
说，参数调节上失之毫厘，学习结果可能谬以千里. 

二十世纪九十年代中期，“统计学习” (statistical learning ) 闪亮登场并 
迅速占据主流舞台，代表性技术是支持向量机 (Support Vector Machine , 简称 
SVM ) 以及更一般的“核方法” (kernel methods ). 这方面的研究早在二十世 
纪六七十年代就已开始，统计学习理论 [ Vapnik , 1998] 在那个时期也已打下 
了基础，例如 V . N . Vapnik 在1963年提出了 “支持向量”概念，他和 A . J . 
Cliervonenkis 在1968年提出 VC 维，在1974年提出了结构风险最小化原则等. 
但直到九十年代中期统计学习才开始成为机器学习的主流，一方面是由于有效 
的支持向量机算法在九十年代初才被提出，其优越性能到九十年代中期在文 
本分类应用中才得以显现；另一方面，正是在连接主义学习技术的局限性凸显 
之后，人们才把目光转向了以统计学习理论为直接支撑的统计学习技术.事实 
上，统计学习与连接主义学习有密切的联系.在支持向量机被普遍接受后，核技 
巧 (kernel trick ) 被人们用到了机器学习的几乎每一个角落，核方法也逐渐成为 
机器学习的基本内容之一. 

有趣的是，二十一世纪初，连接主义学习又卷土重来，掀起了以“深度学 
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参见 5.6 节 


“过拟合” 


习”为名的热潮.所谓深度学习，狭义地说就是“很多层”的神经网络.在若 
干测试和竞赛上，尤其是涉及语音、图像等复杂对象的应用中，深度学习技术 
取得了优越性能.以往机器学习技术在应用中要取得好性能，对使用者的要求 
较高； 而深度学习技术涉及的模型复杂度非常高，以至于只要下工夫“调参”， 
把参数调节好，性能往往就好.因此，深度学习虽缺乏严格的理论基础，但它显 
著降低了机器学习应用者的门槛，为机器学习技术走向工程实践带来了便利. 
那么，它为什么此时才热起来呢？有两个基本原因：数据大了、计算能力强了. 

参1第2章_深度学习模型拥有大量参数，若数据样本少，则很容易“过拟合” ' ；如此复杂的 
模型、如此大的数据样本，若缺乏强力计算设备，根本无法求解.恰由于人类进 
入了 “大数据时代”，数据储量与计算设备都有了大发展，才使得连接主义学 
习技术焕发又一春.有趣的是，神经网络在二十世纪八十年代中期走红，与当时 
Intel x86 系列微处理器与内存条技术的广泛应用所造成的计算能力、数据访 
存效率比七十年代有显著提高不无关联.深度学习此时的状况，与彼时的神经 
网络何其相似. 

需说明的是，机器学习现在已经发展成为一个相当大的学科领域，本节仅 
是管中窥豹，很多重要技术都没有谈及，耐心的读者在读完本书后会有更全面 
的了解. 


1.6 应用现状 


在过去二十年中，人类收集、存储、传输、处理数据的能力取得了飞速提 
升，人类社会的各个角落都积累了大量数据，亟需能有效地对数据进行分析利 
用的计算机算法，而机器学习恰顺应了大时代的这个迫切需求，因此该学科领 
域很自然地取得巨大发展、受到广泛关注. 

今天，在计算机科学的诸多分支学科领域中，无论是多媒体、图形学，还是 
网络通信、软件工程，乃至体系结构、芯片设计，都能找到机器学习技术的身 
影，尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域，机器学 
习已成为最重要的技术进步源泉之一. 

机器学习还为许多交叉学科提供了重要的技术支撑.例如，“生物信息 
学”试图利用信息技术来研究生命现象和规律，而基因组计划的实施和基因药 
物的美好愿景让人们为之心潮澎湃.生物信息学研究涉及从“生命现象”到 
“规律发现”的整个过程，其间必然包括数据获取、数据管理、数据分析、仿 
真实验等环节，而“数据分析”恰是机器学习技术的舞台，各种机器学习技术 
已经在这个舞台上大放异彩. 
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NASA - JPL 的全称是美 

国航空航天局喷气推进实 
验室，著名的“勇气”号 
和“机遇”号火星机器人 
均是在这个实验室研制的. 

DARPA 的全称是美国 
国防部先进研究计划局， 
互联网、全球卫星定位系 
统等都源于 DARPA 启动 
的研究项目. 


机器学习提供数据分析 
能力，云计算提供数据处 
理能力，众包提供数据标 
记能力. 


“数据挖掘”这个词很 
早就在统计学界出现并略 
带贬义，这是由于传统统 
计学研究往往醉心于理论 
的优美而忽视实际效用. 
但最近情况发生变化，越 
来越多的统计学家开始关 
注现实问题，进入机器学 
习和数据挖掘领域. 


第1章绪 论 


事实上，随着科学研究的基本手段从传统的“理论+实验”走向现在的 
“理论+实验+计算”，乃至出现“数据科学”这样的提法，机器学习的重要 
性日趋显著，因为“计算”的目的往往是数据分析，而数据科学的核心也恰是 
通过分析数据来获得价值.若要列出目前计算机科学技术中最活跃、最受瞩 
目的研究分支，那么机器学习必居其中. 2001年，美国 NASA-JPL 的科学家 
在 Science 杂志上专门撰文 [Mjolsness and DeCoste , 2001] 指出，机器学习对 
科学研究的整个过程正起到越来越大的支撑作用，其进展对科技发展意义重大. 
2003年， DARPA 启动 PAL 计划，将机器学习的重要性上升到美国国家安全的 
高度来考虑.众所周知，美国最尖端科技的研究通常是由 NASA 和 DARPA 推 
进的，而这两大机构不约而同地强调机器学习的重要性，其意义不言而喻. 

2006年，卡耐基梅隆大学宣告成立世界上第一个“机器学习系”，机器学 
习领域奠基人之一 T . Mitchell 教授出任首任系主任. 2012年3月，美国奥巴马 
政府启动“大数据研究与发展计划”，美国国家科学基金会旋即在加州大学伯 
克利分校启动加强计划，强调要深入研究和整合大数据时代的三大关键技术: 
机器学习、云计算、众包 ( crowdsourcing ). 显然，机器学习在大数据时代是必 
不可少的核心技术,道理很简单：收集、存储、传输、管理大数据的目的，是为 
了 “利用”大数据，而如果没有机器学习技术分析数据，则“利用”无从谈起. 

谈到对数据进行分析利用，很多人会想到“数据挖掘” (data mining )， 这 
里简单探讨一下数据挖掘与机器学习的联系.数据挖掘领域在二十世纪九十年 
代形成，它受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影 
响最大 [ Zhou , 2003]. 数据挖掘是从海量数据中发掘知识，这就必然涉及对“海 
量数据”的管理和分析.大体来说，数据库领域的研究为数据挖掘提供数据管 
理技术，而机器学习和统计学的研究为数据挖掘提供数据分析技术.由午统计 
学界的研究成果通常需要经由机器学习研究来形成有效的学习算法，之后再进 
入数据挖掘领域，因此从这个意义上说，统计学主要是通过机器学习对数据挖 
掘发挥影响，而机器学习领域和数据库领域则是数据挖掘的两大支撑. 

今天，机器学习已经与普通人的生活密切相关.‘例如在天气预报、能源勘 
探、环境监测等方面，有效地利用机器学习技术对卫星和传感器发回的数据进 
行分析，是提髙预报和检测准确性的重要途径;在商业营销中，有效地利用机器 
学习技术对销售数据、客户信息进行分析，不仅可帮助商家优化库存降低成本， 
还有助于针对用户群设计特殊营销策略； 下面再举几例： 

众所周知，谷歌、百度等互联网搜索引擎已开始改变人类的生活方式，例 
如很多人已习惯于在出行前通过互联网搜索来了解目的地信息、寻找合适的 
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例如著名机器学习教科 
书 [ Mjtchell , 1997] 4.2 节介 
绍了二十世纪九十年代早 
期利用神经网络学习来控 
制自动驾驶车的 ALVINN 
系焱. 


酒店、餐馆等.美国《新闻周刊》曾对谷歌有一句话 评论： “它使任何人离任 
何问题的答案间的距离变得只有点击一下鼠标这么远显然，互联网搜索是 
通过分析网络上的数据来找到用户所需的信息，在这个过程中，用户查询是输 
入、搜索结果是输出，而要建立输入与输出之间的联系，内核必然需要机器学 
习技术.事实上，互联网搜索发展至今，机器学习技术的支撑居功至伟.到了今 
天，搜索的对象、内容日趋复杂，机器学习技术的影响更为明显，例如在进行 
“图片搜索”时，无论谷歌还是百度都在使用最新潮的机器学习技术.谷歌、 
百度、脸书、雅虎等公司纷纷成立专攻机器学习技术的研究团队，甚至直接以 
机器学习技术命名的研究院，充分体现出机器学习技术的发展和应用，甚至在 
一定程度上影响了互联网产业的走向. 

再举一例.车祸是人类最凶险的杀手 之一， 全世界每年有上百万人丧生车 
轮，仅我国每年就有约十万人死于车祸.由计算机来实现自动汽车驾驶是一个 
理想的方案，因为机器上路时可以确保不是新手驾驶、不会疲劳驾驶，更不会 
酒后驾驶，而且还有重要的军事用途.美国在二十世纪八十年代就开始进行这 
方面研究.这里最大的困难是无法在汽车厂里事先把汽车上路后所会遇到的所 
有情况都考虑到、设计出处理规则并加以编程实现，而只能根据上路时遇到的 
情况即时处理.若把车载传感器接收到的信息作为输入，把方向、刹车、油门 
的控制行为作为输出，则这里的关键问题恰可抽象为一个机器学习任务. 2004 
年3月，在美国 DARPA 组织的自动驾驶车比赛中，斯坦福大学机器学习专家 
S . Thrun 的小组研制的参赛车用6小时53分钟成功走完了 132英里赛程获得 
冠军.比赛路段是在内华达州西南部的山区和沙漠中，路况相当复杂，在这样的 
路段上行车即使对经验丰富的人类司机来说也是一个挑战 . S . Thmn 后来到谷 
歌领导自动驾驶车项目团队.值得一提的是，自动驾驶车在近几年取得了飞跃 
式发展，除谷歌外，通用、奥迪、大众、宝马等传统汽车公司均投入巨资进行 
研发，目前已开始有产品进入市场. 2011年6月，美国内华达州议会通过法案， 
成为美国第一个认可自动驾驶车的州，此后，夏威夷州和佛罗里达州也先后通 
过类似法案.自动驾驶汽车可望在不久的将来出现在普通人的生活中，而机器 
学习技术则起到了 “司机”作用. 

机器学习技术甚至已影响到人类社会政治生活. 2012年美国大选期间，奥 
巴马麾下有一支机器学习团队，他们对各类选情数据进行分析，为奥巴马提示 
下一步竞选行动.例如他们使用机器学习技术分析社交网络数据，判断出在总 
统候选人第一次辩论之后哪些选民会倒戈，并根据分析的结果开发出个性化宣 
传策略，能为每位选民找出一个最有说服力的挽留理由；他们基于机器学习模 
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第 1 章绪 论 


WEKA 是著名的免费 
机器学习算法程序库，由 
新西兰 Waikato 大学研 
究人员基于 JAVA 开发: 
http :// www . es . waikato . 
ac . nz / ml / weka /. 


型的分析结果提示奥巴马应去何处开展拉票活动，有些建议甚至让专业竞选顾 
问大吃一惊，而结果表明去这些地方大有收获.总统选举需要大量金钱，机器 
学习技术在这方面发挥了奇效.例如，机器学习模型分析出，某电影明星对某 
地区某年龄段的特定人群很有吸引力，而这个群体很愿意出高价与该明星及奥 
巴马共进晚餐……果然，这样一次筹资晚宴成功募集到1500万美元；最终，借 
助机器学习模型，奥巴马筹到了创纪录的10亿美元竞选经费.机器学习技术不 
仅有助于竞选经费“开源”，还可帮助“节流”，例如机器学习模型通过对不 
同群体选民进行分析，建议购买了一些冷门节目的广告时段，而没有采用在昂 
贵的黄金时段购买广告的传统做法，使得广告资金效率相比2008年竞选提高 
了 14%;……胜选后，《时代》周刊专门报道了这个被奥巴马称为“竞选核武 
器”、由半监督学习研究专家 R . Ghani 领导的团队. 

值得一提的是，机器学习备受瞩目当然是由于它已成为智能数据分析技术 
的创新源泉，但机器学习研究还有另一个不可忽视的意义，即通过建立一些关 
于学习的计算模型来促进我们理解“人类如何学习”.例如， P . Kanerva 在二 
十世纪八十年代中期提出 SDM (Sparse Distributed Memory ) 模型 [ Kanerva , 
1988] 时并没有刻意模仿脑生理结构，但后来神经科学的研究发现， SDM 的稀 
疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在，从而为理解脑的某 
些功能提供了一定的启发.自然科学研究的驱动力归结起来无外是人类对宇宙 
本源、万物本质、生命本性、自我本识的好奇，而“人类如何学习”无疑是一 
个有关自我本识的重大问题.从这个意义上说，机器学习不仅在信息科学中占 
有重要地位，还具有一定的自然科学探索色彩. 

1.7 阅读材料 

[ Mitchell , 1997] 是第一本机器学习专门性教材 ， [Duda et al .， 2001; Al - 
paydin , 2004; Flach , 2012] 都是出色的入门 读物 . [Hastie et al ., 2009] 是很好 
的进阶读物， [ Bishop , 2006] 也很有参考价值，尤其适合于贝叶斯学习偏好者. 
[ Shalev-Shwartz and Ben - David ，2014] 则适合于理论偏好者 . [Witten et al ., 
2011] 是基于 WEKA 撰写的入门读物，有助于初学者通过 WEKA 实践快速掌 
握常用机器学习算法. 

本书 1.5 和 1.6 节主要取材于[周志华， 2007]. 《机器 学习： 一种人工智能 
途径 》 [Michalski et al ., 1983] 汇集了 20位学者撰写的16篇文章，是机器学习 
早期最重要的文献.该书出版后产生了很大反响 ， Morgan Kaufmann 出版社后 
来分别于1986年和1990年出版了该书的续篇，编为第二卷和第三卷.《人工 
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深度学习参见 5.6 节. 


规则学习参见第15章. 


集成学习参见第8章. 


智能手册》系列是图灵奖得主 E . A . Feigenbaum 与不同学者合作编写而成，该 
书第三卷 [Cohen and Feigenbaum , 1983] 对机器学习进行了讨论，是机器学习 
早期的重要文献. [ Dietterich , 1997] 对机器学习领域的发展进行了评述和展望. 
早期的很多文献在今天仍值得重视，一些闪光的思想在相关技术进步后可能焕 
发新的活力，例如近来流行的“迁移学习” (transfer learning ) [Pan and Yang , 
2010 ], 恰似“类比学习” (learning by analogy ) 在统计学习技术大发展后的升 
级版；红极一时的“深度学习” (deep learning ) 在思想上并未显著超越二十世 
纪八十年代中后期神经网络学习的研究. 

机器学习中关于概念学习的研究开始很早，从中产生的不少思想对整个 
领域都有深远影响.例如作为主流学习技术之一的决策树学习，就起源于关 
于概念形成的树结构研究 [Hunt and Hovland , 1963]. [ Winston , 1970] 在著 
名的“积木世界”研究中，将概念学习与基于泛化和特化的搜索过程联系起 
来 . [Simon and Lea , 1974] 较早提出了 “学习”是在假设空间中搜索的观点. 
[ Mitchell , 1977] 稍后提出了版本空间的概念.概念学习中有很多关于规则学习 
的内容. 

奥卡姆剃刀原则主张选择与经验观察一致的最简单假设，它在自然科学如 
物理学、天文学等领域中是一个广为沿用的基础性原则，例如哥白尼坚持“曰 
心说”的理由之一就是它比托勒密的“地心说”更简单且符合天文观测.奥 
卡姆剃刀在机器学习领域也有很多追随者 [Blumer et al ., 1996]. 但机器学习 
中什么是“更简单的”这个问题一直困扰着研究者们，因此，对奥卡姆剃刀在 
机器学习领域的作用一直存在着争议 [ Webb , 1996; Domingos , 1999]. 需注意 
的是，奥卡姆剃刀并非科学研究中唯一可行的假设选择原则，例如古希腊哲学 
家伊壁鸠鲁(公元前341年-前270年)提出的“多释原则” (principle of multiple 
explanations ), 主张保留与经验观察一致的所有假设 [ Asmis , 1984], 这与集成 
学习 (ensemble learning ) 方面的研究更加 吻合. 

机器学习领域最重要的国际学术会议是国际机器学习会议 ( ICML ) 、国际 
神经信息处理系统会议 ( NIPS ) 和国际学习理论会议 ( COLT )， 重要的区域性会 
议主要有欧洲机器学习会议 ( ECML ) 和亚洲机器学习会议 ( ACML ); 最重要的 
国际学术期刊是 Journal of Machine Learning Research fP Machine Learning . 
人工智能领域的重要会议如 IJCAI 、 AAAI 以及重要期刊如 Artificial Intelli ¬ 
gence , Journal of Artificial Intelligence Research , 数据挖掘领域的重要会议 
如 KDD、ICDM 以及重要期刊如 ACM Transactions on Knowledge Discovery 
from Data、Data Mining and Knowledge Discovery , 计算机视觉与模式识别 




领域的重要会议如 GVPR 以及重要期刊如 IEEE Transactions on Pattern 
Analysis and Machine Intelligence , 神经网络领域的重要期刊如 Neural Com ¬ 
putation ^ IEEE Transactions on Neural Networks and Learning Systems 等 
也经常发表机器学习方面的论文.此外，统计学领域的重要期刊如 Annals of 
Statistics 等也常有关于统计学习方面的理论文章发表. 

国内不少书籍包含机器学习方面的内容，例如[陆汝钤， 1996]. [李航， 2012] 
是以统计学习为主题的读物.国内机器学习领域最主要的活动是两年一次 
的中国机器学习大会 ( CCML ；) 以及每年举行的“机器学习及其应用”研讨 
会 ( MLA ); 很多学术刊物都经常刊登有关机器学习的论文. 




习题 
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析合范式即多个合取式 
的析取. 


提示： 注意冗余情况, 
如 (A = a ) V(A = *) 

与= *) 等价. 


即不存在训练错误为0 
的假设 . 


习题 


1.1 表 1.1 中若只包含编号为1和4的两个样例，试给出相应的版本空间. 

1.2 与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假 
设空间具有更强的表示能力.例如 

好瓜 e ((色泽= *) A (根蒂=蜷缩 ） A (敲声= *)) 

V (( 色泽=乌黑 ）A (根蒂= *) A (敲声=沉闷))， 

会把“(色泽=青绿 ） A (根蒂=蜷缩 ） A (敲声=清脆)”以及“(色泽= 

乌黑 ） A (根蒂=硬挺 ） A (敲声=沉闷)”都分类为“好瓜”.若使用最 

多包含 A : 个合取式的析合范式来表达表 1.1 西瓜分类问题的假设空 

间，试估算共有多少种可能的假设. 

* 

1.3 若数据包含噪声，则假设空间中有可能不存在与所有训练样本都一致 
的假设.在此情形下，试设计一种归纳偏好用于假设选择. 

1.4* 本章 1.4 节在论述“没有免费的午餐”定理时，默认使用了 “分类错 
误率”作为性能度量来对分类器进行评估.若换用其他性能度量冬则 
式 (1.1) 将改为 

E ote (^ a \ XJ ) = J 2 E P ( x ) Hh ( x ) J ( x )) P ( h \ X ^ a ) , 

h 一 X 

试证明“没有免费的午餐定理”仍成立. 

1.5 试述机器学习能在互联网搜索的哪些环节起什么作用. 
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第 1 章绪 论 


这个跳棋程序实质上使 
用了强化学习技术，参见 
第16章. 


休息一会儿 


小 故事： “机器学习”名字的由来 

1952年，阿瑟 • 萨缪尔 (Arthur Samuel , 1901— 1990) 

在 IBM 公司研制了 一个西洋跳棋程序，这个程序具有自 
学习能力，可通过对大量棋局的分析逐渐辨识出当前局面 
下的“好棋”和“坏棋”，从而不断提高弈棋水平，并很 
快就下赢了萨缪尔自己.1956年，萨缪尔应约翰•麦卡锡 
(John McCarthy , “人工智能之父”，1971年图灵奖得主）之邀，在标志着人 
工智能学科诞生的达特茅斯会议上介绍这项工作.萨缪尔发明了 “机器学习” 
这个词，将其定义为“不显式编程地赋予计算机能力的研究领域”.他的文 
章 “Some studies in machine learning using the game of checkers ” 1959 年在 
IBM Journal 正式发表后， 爱德华 • 费根鲍姆 （Edward Feigenbaum , “知识工 
程之父”，1994年图灵奖得主）为编写其巨著 Computers and Thought , 在 1961 
年邀请萨缪尔提供一个该程序最好的对弈实例.于是，萨缪尔借机向康涅狄格 
州的跳棋冠军、当时全美排名第四的棋手发起了挑战，结果萨缪.尔程序获胜， 
在当时引起轰动. 

事实上，萨缪尔跳棋程序不仅在人工智能领域产生了重大影响，还影响到 
整个计算机科学的发展.早期计算机科学研究认为，计算机不可能完成事先没 
有显式编程好的任务，而萨缪尔跳棋程序否证了这个假设.另外，这个程序是最 
早在计算机上执行非数值计算任务的程序之一，其逻辑指令设计思想极大地影 
响了 IBM 计算机的指令集，并很快被其他计算机的设计者采用. 





精度常写为百分比形式 
(1 —念 ） x 100%. 

这里所说的“误差”均 
指误差期望. 


在后面的章节中将介绍 
不同的学习算法如何最小 
化经验误差. 


过拟合亦称“过配”. 
欠拟合亦称“欠配”. 


学习能力是否“过于强 
大”，是由学习算法和数 
据内涵共同决定的. 


第2章模型评估与选择 


2.1 经验误差与过拟合 

通常我们把分类错误的样本数占样本总数的比例称为“错误率” (error 
rate ) ,即如果在 m 个样本中有 a 个样本分类错误，则错误率五= a / m ; 相应的, 
1 - a / m 称为“精度” （ accuracy ), 即“精度=1 一错误率”.更一般地,我们把 
学习器的实际预测输出与样本的真实输出之间的差异称为“误差” ( error ), 
学习器在训练集上的误差称为“训练误差” (training error ) 或“经验误 
差” (empirical error ) ,在新样本上的误差称为“泛化误差 ” （generalization 
error ). 显然，我们希望得到泛化误差小的学习器.然而，我们事先并不知道新 
样本是什么样，实际能做的是努力使经验误差最小化.在很多情况下，我们可以 
学得一个经验误差很小、在训练集上表现很好的学习器，例如甚至对所有训练 
样本都分类正确，即分类错误率为零，分类精度为100%,但这是不是我们想要 
的学习器呢？遗憾的是,这样的学习器在多数情况下都不好. 

我们实际希望的，是在新样本上能表现得很好的学习器.为了达到这个 
目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这 
样才能在遇到新样本时做出正确的判别.然而，当学习器把训练样本学得“太 
好” 了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都 
会具有的一般性质，这样就会导致泛化性能下降.这种现象在机器学习中称为 
“过拟合” （ overfitting ). 与“过拟合”相对的是“欠拟合” （ underfitting ), 这 
是指对训练样本的一般性质尚未学好.图 2.1 给出了关于过拟合与欠拟合的一 
个便于直观理解的类比. 

有多种因素可能导致过拟合，其中最常见的情况是由于学习能力过于强大, 
以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由 
于学习能力低下而造成的.欠拟合比较容易克服，例如在决策树学习中扩展分 
支、在神经网络学习中增加训练轮数等，而过拟合则很麻烦.在后面的学习中 
我们将看到，过拟合是机器学习面临的关键障碍，各类学习算法都必然带有一 
些针对过拟合的措施;然 M 必须认识到，过拟合是无法彻底避免的，我们所能做 
的只是“缓解”，或者说减小其风险.关于这一点，可大致这样 理解： 机器学习 
面临的问题通常是 NP 难甚至更难，而有效的学习算法必然是在多项式时间内 
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第 2 章模型评估与选择 



过拟合模型分类 结果： 

- >不是树叶 

(误以为树叶必须有锯齿） 


欠拟合模型分类 结果： 
是树叶 
( 误以为绿色的都是树叶） 


图 2.1 过拟合、欠拟合的直观类比 

运行完成，若可彻底避免过拟合，则通过经验误差最小化就能获最优解，这就意 
味着我们构造性地证明了 “ P = NP ” ；因此，只要相信 “P # NP ” ，过拟合就 
不可避免. 

在现实任务中，我们往往有多种学习算法可供选择，甚至对同一个学习算 
法，当使用不同的参数配置时，也会产生不同的模型.那么，我们该选用哪一个 
学习算法、使用哪一种参数配置呢？这就是机器学习中的“模型选择 ” （model 
selection ) 问题.理想的解决方案当然是对候选模型的泛化误差进行评估，然后 
选择泛化误差最小的那个模型.然而如上面所讨论的，我们无法直接获得泛化 
误差，而训练误差又由于过拟合现象的存在而不适合作为标准，那么，在现实中 
如何进行模型评估与选择呢？ 


在现实任务中往往还会 
考虑时间开销、存储开 
销、可解释性等方面的因 
素，这里暂且只考虑泛化 
误差. 


2.2 评估方法 

通常，我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选 
择.为此，需使用一个“测试集” (testing set ) 来测试学习器对新样本的判别能 
力，然后以测试集上的“测试误差 ” （testing error ) 作为泛化误差的近似.通常 
我们假设测试样本也是从样本真实分布中独立同分布采样而得.但需注意的 
是，测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现、未 
在训练过程中使用过. 

测试样本为什么要尽可能不出现在训练集中呢？为理解这一点，不妨考虑 
这样一个场景：老师出了 10道习题供同学们练习，考试时老师又用同样的这10 
道题作为试题，这个考试成绩能否有效反映出同学们学得好不好呢？答案是否 
定的，可能有的同学只会做这10道题却能得高分.回到我们的问题上来，我们 


J 


新样本 




















2.2 评估方法 
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参见习题 2 . 1 . 


同时可得估计结果的标 
准差. 


希望得到泛化性能强的模型，好比是希望同学们对课程学得很好、获得了对所 
学知识“举一反三”的能力；训练样本相当于给同学们练习的习题，测试过程 
则相当于考试.显然，若测试样本被用作训练了，则得到的将是过于“乐观”的 
估计结果. 

可是，我们只有一个包含 m 个样例的数据集 

既要训练，又要测试，怎样才能做到呢？答 案是： 通过对 D 进行适当 
的处理，从中产生出训练集 S 和测试集 : T . 下面介绍几种常见的做法. 

2.2.1 留出法 

“留出法” （ hold - out ) 直接将数据集 D 划分为两个互斥的集合，其中一个 
集合作为训练集&另一个作为测试集 r， 即 L ) = s u 7 1 ， s n r = 0 .在 s 上训 
练出模型后，用 r 来评估其测试误差，作为对泛化误差的估计. 

以二分类任务为例,假定 D 包含1000个样本,将其划分为 *9 包含700个样 
本， r 包含300个样本，用 S 进行训练后，如果模型在 T 上有90个样本分类错 
误，那么其错误率为 (90/300) x 100% = 30%,相应的，精度为1 - 30% = 70%. 

需注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免 
因数据划分过程引入额外的偏差而对最终结果产生影响，例如在分类任务中 
至少要保持样本的类别比例相似.如果从采样 ( sampling ) 的角度来看待数据 
集的划分过程，则保留类别比例的釆样方式通常称为“分层采样” (stratified 
sampling ). 例如通过对 D 进行分层采样而获得含70%样本的训练集 S 和含 
30%样本的测试集 T , 若 D 包含500个正例、500个反例，则分层采样得到的 
S 应包含350个正例、350个反例，而 T 则包含150个正例和150个 反例； 若 
S 、 r 中样本类别比例差别很大，则误差估计将由于训练/测试数据分布的差异 
而产生偏差. 

另一个需注意的问题是，即便在给定训练/测试集的样本比例后，仍存在多 
种划分方式对初始数据集 P 进行分割.例如在上面的例子中，可以把 D 中的样 
本排序，然后把前350个正例放到训练集中，也可以把最后350个正例放到训 
练集中，……这些不同的划分将导致不同的训练/测试集，相应的，模型评估的 
结果也会有差别.因此，单次使用留出法得到的估计结果往往不够稳定可靠，在 
使用留出法时， 一 般要采用若干次随机划分、重复进行实验评估后取平均值作 
为留出法的评估结果.例如进行100次随机划分，每次产生一个训练/测试集用 
于实验评估，100次后就得到100个结果，而留出法返回的则是这100个结果的 

\Tt AJ-t 

平均. 

此外，我们希望评估的是用 P 训练出的模型的性能，但留出法需划分训 
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第 2 章模型评估与选择 


可从“偏差-方差”（参 
见 2.6 节)的角度来 理解: 
测试集小时，评估结果的 
方差 较大； 训练集小时，评 
估结果的偏差较大. 

一般而言，测试集至少 
应含30个样例 [ Mitchell , 
1997]. 


亦称 “/ c 倍交叉验证”. 


“10次10折交叉验 
证法”与“100次留出 
法”都是进行了 100次训 
练/测试. 


练/测试集，这就会导致一个窘境：若令训练集 S 包含绝大多数样本，则训练出 
的模型可能更接近于用 d 训练出的模型，但由于 r 比较小，评估结果可能不够 
稳定准确；若令测试集： T 多包含一些样本，则训练集 S 与 D 差别更大了，被评 
估的模型与用 D 训练出的模型相比可能有较大差别，从而降低了评估结果的保 
真性 (fidelity). 这个问题没有完美的解决方案，常见做法是将大约2/3 〜 4/5的 
样本用于训练，剩余样本用于测试. 

2 . 2.2 交叉验证法 

“交叉验证法” (cross validation) 先将数据集 D 划分为々个大小相似的 
互斥子集，即 D = _Di U Z>2 U •.. U H Dj = 0 (i ^ j). 每个子集 都 

尽可能保持数据分布的一致性，即从 D 中通过分层采样得到.然后，每次用 
k-1 个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得 A; 
组训练/测试集，从而可进行 A: 次训练和测试，最终返回的是这&个测试结果 
的均值.显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于 A: 
的取值，为强调这一点，通常把交叉验证法称为“ A: 折交叉验证” （tfold cross 
validation), k 最常用的取值是 10 , 此时称为10折交叉验证；其他常用的 A: 值 
有5、20等.图 2.2 给出了 10折交叉验证的示意图. 
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图 2.2 10 折交叉/验证示意图 

与留出法相似，将数据集 D 划分为 A; 个子集同样存在多种划分方式.为 
减小因样本划分不同而引入的差别，&折交叉验证通常要随机使用不同的划分 
重复 P 次，最终的评估结果是这 p 次 /c 折交叉验证结果的均值，例如常见的有 
“10 次 10 折交叉验证”. 

假定数 据集乃 中包含 m 个样本，若令 k = m ，则得到了交叉验证法的一 
个特例：留一法 (Leave-One-Out, 简称 L00). 显然，留一法不受随机样本划分 
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参见习题 2 . 2 . 

NFL 定理参见 1.4 节. 


关于样本复杂度与泛化 
性能之间的关系，参见第 
12 章. 


Bootstrap 本意是“解鞠 
带”； 这里是在使用德国 
18世纪文学作品《吹牛 
大王历险记》中解靴带自 
助的典故，因此本书译为 
“自助法”.自助采样亦 
称“可重复采样”或“有 
放回采样”. 


e 是自然常数. 


“\”表示集合减法. 


集成学习参见第8章. 


方式的影响，因为 m 个样本只有唯一的方式划分为 m 个子集——每个子集包含 
一个样本；留一法使用的训练集与初始数据集相比只少了一个样本，这就使得 
在绝大多数情况下，留一法中被实际评估的模型与期望评估的用训练出的模 
型很相似.因此，留一法的评估结果往往被认为比较准确.然而，留一法也有其 
缺陷： 在数据集比较大时，训练 m 个模型的计算开销可能是难以忍受的(例如数 
据集包含1百万个样本，则需训练1百万个模型)，而这还是在未考虑算法调参 
的情况下.另外，留一法的估计结果也未必永远比其他评估方法准确；“没有免 
费的午餐”定理对实验评估方法同样适用. 


2.2.3 自助法 

我们希望评估的是用 D 训练出的模型.但在留出法和交叉验证法中，由于 
保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比乃小，这 
必然会引入一些因训练样本规模不同而导致的估计偏差.留一法受训练样本规 
模变化的影响较小，但计算复杂度又太高了.有没有什么办法可以减少训练样 
本规模不同造成的影响，同时还能比较高效地进行实验估计呢？ 

“自助法” （ bootstrapping ) 是一个比较好的解决方案，它直接以自助采样 
法 (bootstrap sampling ) 为基础 [Efron and Tibshirani , 1993 ]. 给定包含 m 个样 
本的数据集 J 9 , 我们对它进行釆样产生数据集每次随机从 D 中挑选一个 
样本，将其拷贝放入，然后再将该样本放回初始数据集 D 中，使得该样本在 
下次采样时仍有可能被 采到； 这个过程重复执行 m 次后，我们就得到了包含 m 
个样本的数据集 IT , 这就是自助采样的结果.显然，乃中有一部分样本会在 iT 
中多次出现，而另一部分样本不出现.可以做一个简单的估计，样本在 m 次采 
样中始终不被采到的概率是 (1 - ^) m , 取极限得到 



I — — ~ 0.368 


( 2 . 1 ) 


即通过自助采样，初始数据集乃中约有36.8%的样本未出现在采样数据集 
中.于是我们可将以用作训练集，用作测 试集; 这样,实际评估的模型与 
期望评估的模型都使用 m 个训练样本，而我们仍有数据总量约1/3的、没在训 
练集中出现的样本用于测试.这样的测试结果，亦称“包外估计” ( out - of-bag 
estimate ). 

自助法在数据集较小、难以有效划分训练/测试集时很有用；此外，自助法 
能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 
然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差.因 




例如大型“深度学习” 
模型甚至有上百亿个参数. 
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此,在初始数据量足够时，留出法和交叉验证法更常用一些. 

2.2.4 调参与最终模型 

大多数学习算法都有些参数 ( parameter ) 需要设定，参数配置不同，学得模 
型的性能往往有显著差别.因此，在进行模型评估与选择时，除了要对适用学习 
算法进行选择，还需对算法参数进行设定，这就是通常所说的“参数调节”或 
简称“调参” (parameter tuning ). 

读者可能马上想到，调参和算法选择没什么本质区别 :对每 种参数配置都 
训练出模型，然后把对应最好模型的参数作为结果.这样的考虑基本是正确的, 
但有一点需 注意： 学习算法的很多参数是在实数范围内取值，因此,对每种参数 
配置都训练出模型来是不可行的.现实中常用的做法，是对每个参数选定一个 
范围和变化步长,例如在 [0,0.2] 范围内以 0.05 为步长,则实际要评估的候选参 
数值有5个，最终是从这5个候选值中产生选定值.显然，这样选定的参数值往 
往不是“最佳”值，但这是在计算开销和性能估计之间进行折中的结果，通过 
这个折中，学习过程才变得可行.事实上，即便在进行这样的折中后，调参往往 
仍很困难.可以简单估算一下：假定算法有3个参数，每个参数仅考虑5个候选 
值，这样对每一组训练/测试集就有5 3 = 125个模型需考察;很多强大的学习算 
法有大量参数需设定，这将导致极大的调参工程量，以至于在不少应用任务中, 
参数调得好不好往往对最终模型性能有关键性影响. 

给定包含 m 个样本的数据集 D ，在模型评估与选择过程中由于需要留出 
一部分数据进行评估测试，事实上我们只使用了一部分数据训练模型.因此，在 
模型选择完成后，学习算法和参数配置已选定，此时应该用数据集 D 重新训练 
模型.这个模型在训练过程中使用了所有 m 个样本，这才是我们最终提交给用 
户的模型. 

另外，需注意的是，我们通常把学得模型在实际使用中遇到的数据称为测 
试数据，为了加以区分，模型评估与选择中用于评估测试的数据集常称为“验 
证集 ” （validation set ). 例如，在研究对比不同算法的泛化性能时，我们用测试 
集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分 
为训练集和验证集，基于验证集上的性能来进行模型选择和调参. 

2.3 性能度量 

对学习器的泛化性能进行评估，不仅需要有效可的实验估计方法，还需 
要有衡量模型泛化能力的评价标准，这就是性能度量 (performance measure ). 
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聚类的性能度量参见第 
9章. 


性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往 
往会导致不同的评判结果；这意味着模型的“好坏”是相对的，什么样的模型 
是好的，不仅取决于算法和 数据， 还决定于任务需求. 

在预测任务中，给定样例集 D Urn)}, 其中挑 

是示例 A 的真实标记.要评估学习器/的性能，就要把学习器预测结果 f(x) 
与真实标记进行比较. 

回归任务最常用的性能度量是“均方误差 ” （mean squared error ) 

E(f ] D) = - f 2( f ( x i )- y i ) 2 . (2.2) 

m ^ 

更一般的，对于数据分布 D 和概率密度函数 p ㈠ ，均方误差可描述为 

E(f ； V)= [ (f (x) - y) 2 p(x)dx . (2.3) 

J sc 〜 2? 

本节下面主要介绍分类任务中常用的性能度量. 

O Q 1 ^±t tz ： FtiP 

HI hi 天半与棺度 

本章开头提到了错误率和精度，这是分类任务中最常用的两种性能度量， 
既适用于二分类任务，也适用于多分类任务.错误率是分类错误的样本数占样 
本总数的比例，精度则是分类正确的样本数占样本总数的比例.对样例集 D , 分 
类错误率定义为 

1 m 

E(f ] D) = -J2l(f(x i )^y i ) . (2.4) 

TTl 

i=l 

精度则定义为 

1 m 

acc (/; D) = —^1(/(^) = yi ) (2.5) 

i=l 

=l-E(f;D) . 

更一般的，对于数据分布和概率密度函数 p ㈠ ，错误率与精度可分别描 

述为 

= [ I (/ (x) ^ y)p(x)dx , (2.6) 

Jx〜V 
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acc (/; V )= 



1(/ ㈤ = y ) p ( x)dx 




2.3.2 查准率、查全率 与？1 


(2.7) 


错误率和精度虽常用，但并不能满足所有任务需求.以西瓜问题为例，假定 
瓜农拉来一车西瓜，我们用训练好的模型对这些西瓜进行判别，显然，错误率衡 
量了有多少比例的瓜被判别错误.但是若我们关心的是“挑出的西瓜中有多少 
比例是好瓜”，或者“所有好瓜中有多少比例被挑了出来”，那么错误率显然 
就不够用了，这时需要使用其他的性能度量. 


查准率亦称“准确率”， 
查全率亦称“召回率”. 


类似的需求在信息检索、 Web 搜索等应用中经常出现，例如在信息检索 
中，我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用 
户感兴趣的信息中有多少被检索出来了”. “查准率” （ precision ) 与“查全 
率” （ recall ) 是更为适用于此类需求的性能度量. 

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划 


分为真正例 (true positive ) > 假正例 (false positive )、 真反例 (true negative )、 
假反例 (false negative ) 四种情形，令 T 7 5 、 FJP 、 TN 、 FiV 分别表示其对应的 
样例数，则显然有 TP + FP + TN + FN 二样例总数.分类结果的“混淆矩 
阵 ” （confusion matrix ) 如表 2.1 所示. 


表 2.1 分类结果混淆矩阵 


. , ,1 

真实情况 

预测结果 

正例 

反例 

正例 

TP (真正例） 

FN (假反例） 

反例 

FP (假正例） 

TN (真反例） 


查准率 P 与查 全率丑 分别定义为 



P 


TP 

tpTfp 


( 2 . 8 ) 


TP 

TP + FN • 


(2.9) 


查准率和查全率是一对矛盾的度量.一般来说，查准率高时，查全率往往 
偏低； 而查全率高时，查准率往往偏低.例如，若希望将好瓜尽可能多地选出来， 
则可通过增加选瓜的数量来实现，如果将所有西瓜都选上，那么所有的好瓜也 
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以信息检索应用为例, 
逐条向用户反馈其可能感 
兴趣的信息，即可计算出 
查全率、查准率. 

亦称 “ PR 曲线”或 

“PR 图”. 


为绘图方便和美观，示 
意图显示出单调平滑 曲线; 
但现实任务中的 P - R 曲线 
常是非单调、不平滑的， 
在很多局部有上下波动. 


必然都被选上了，但这样查准率就会 较低； 若希望选出的瓜中好瓜比例尽可能 
高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较 
低.通常只有在一些简单任务中，才可能使查全率和查准率都很高. 

在很多情形下，我们可根据学习器的预测结果对样例进行排序，排在前面 
的是学习器认为“最可能”是正例的样本，排在最后的则是学习器认为“最 
不可能”是正例的样本.按此顺序逐个把样本作为正例进行预测，则每次可以 
计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图，就得到 
了查准率-查全率曲线，简称 “ P - R 曲线”，显示该曲线的图称为 “ P - R 图”.图 
2.3 给出了一个示意图. 



P - R 图直观地显示出学习器在样本总体上的查全率、查准率.在进行比较 
时，若一个学习器的 P - R 曲线被另一个学习器的曲线完全“包住”，则可断言 
后者的性能优于前者，例如图 2.3 中学习器 A 的性能优于学习器 C ;如果两个 
学习器的 P - R 曲线发生了交叉，例如图 2.3 中的 A 与 B ,则难以一般性地断言 
两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较.然而，在很多情 
形下，人们往往仍希望把学习器 A 与 B 比出个高低.这时一个比较合理的判据 
是比较 P - R 曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全 
率上取得相对“双高”的比例.但这个值不太容易估算，因此，人们设计了一些 
综合考虑查准率、查全率的性能度量. 

“平衡点” ( Break-Event Point , 简称 BEP ) 就是这样一个度量，它是“查 
准率二查全率”时的取值，例如图 2.3 中学习器 C 的 BEP 是0.64,而基于 BEP 
的比较，可认为学习器 A 优于 B . 
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神经网络参见第5章. 


micro - i ? = 


TP 

TP + FiV 


5 


. . 2 x micro-P x micro - i ? 

micro-FI = - ；~~—— -:--- 

micro-P + micro - i ^ 


(2.16) 

(2.17) 


2.3.3 ROC 与 AUC 

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与 
一个分类阈值 ( threshold ) 进行比较，若大于阈值则分为正类，否则为反类.例 
如，神经网络在一般情形下是对每个测试样本预测出一个 [0.0,1.0] 之间的实值, 
然后将这个值与 0.5 进行比较，大于 0.5 则判为正例，否则为反例.这个实值或 
概率预测结果的好坏,直接决定了学习器的泛化能力.实际上，根据这个实值或 
概率预测结果，我们可将测试样本进行排序，“最可能”是正例的排在最前面， 
“最不可能”是正例的排在最后面.这样，分类过程就相当于在这个排序中以 
某个“截断点 ” （cut point ) 将样本分为两部分，前一部分判作正例，后一部分则 
判作反例. 

在不同的应用任务中，我们可根据任务需求来采用不同的截断点，例如若 
我们更重视“查准率”，则可选择排序中靠前的位置进行 截断； 若更重视“查 
全率”，则可选择靠后的位置进行截断.因此，排序本身的质量好坏，体现了综 
合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说， “一 般情况 
下”泛化性能的好坏. ROC 曲线则是从这个角度出发来研究学习器泛化性能 
的有力工具. 

ROC 全称是“受试者工作特征 ” （Receiver Operating Characteristic ) 曲 
线，它源于“二战”中用于敌机检测的雷达信号分析技术，二十世纪六七十 
年代开始被用于一些心理学、医学检测应用中，此后被引入机器学习领域 
[ Spademan , 1989]. 与 2.3.2 节中介绍的 P - R 曲线相似，我们根据学习器的预 
测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算 
出两个重要量的值，分别以它们为横、纵坐标作图，就得到了 “ ROC 曲线”. 
与 P - R 曲线使用查准率、查全率为纵、横轴不同， ROC 曲线的纵轴是“真正 
例率 ” （True Positive Rate , 简称 TPR ), 横轴是“假正例率 ” （False Positive 
Rate , 简称 FPR ), 基于表 2.1 中的符号，两者分别定义为 


TPR = 

TP 

(2.18) 

~ TP + FN ' 

FPR - 

FP 

(2.19) 

'TN + FP ' 
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假正例率 

( a ) ROC 曲线与 AUC 

’ 图 2.4 ROC 曲线与 AUC 示意图 


0.4 0.6 

假正例率 


0.8 


1.0 


( b ) 基于有限样例绘制的 ROC 曲线 
与 AUC 



基于有限个测试样例绘 
制 P - R 图时有同样问题. 
本书到这里才介绍近似曲 
线的绘制，是为了便于下 
面介绍 AUC 的计算. 


现实任务中通常是利用有限个测试样例来绘制 ROC 图，此时仅能获得有 
限个(真正例率,假正例率)坐标对,无法产生图 2.4( a ) 中的光滑 ROC 曲线，只能 
绘制出如图 2.4( b ) 所示的近似 ROC 曲线.绘图过程很 简单： 给定 m + 个正例和 
m - 个反例，根据学习器预测结果对样例进行排序，然后把分类阈值设为最大， 
即把所有样例均预测为反例，此时真正例率和假正例率均为0,在坐标 （0,0) 处 
标记一个点.然后，将分类阈值依次设为每个样例的预测值，即依次将每个样例 
划分为正例.设前一个标记点坐标为当前若为真正例，则对应标记点的 
坐标为 (^y + ^ r )； 当前若为假正例，则对应标记点的坐标为然 
后用线段连接相邻点即得 • 

进行学习器的比较时，与 P - R 图相似，若一个学习器的 ROC 曲线被另一 
个学习器的曲线完全“包住”，则可断言后者的性能优于前者；若两个学习器 
的 ROC 曲线发生交叉，则难以一般性地断言两者孰优孰劣.此时如果一定要进 
行比较，则较为合理的判据是比较 ROC 曲线下的面积，即 AUC (Area Under 
ROC Curve ), 如图 2.4 所示 • 

从定义可知， AUC 可通过对 ROC 曲线下各部分的面积求和而得.假 
定 ROC 曲线是由坐标为 {( xi , yi ), { x 2, V 2), • • • , ( x m , y m )} 的点按序连接而形 
成(: ci = 0, = 1), 参见图 2.4( b ), 贝 lj AUC 可估算为 


显示 ROC 曲线的图称为 “ ROC 图”.图 2.4 ⑷给出了一+示意图，显然， 
对角线对应于“随机猜测”模型，而点（0, 1) 则对应于将所有正例排在所有反 
例之前的“理想模型”. 





皆 ^^ 
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一般情况下，重要的是 
代价比值而非绝对值，例 
j 口 costo\ : cost 10 = 5:1 
与50 : 10所起效果相当. 


AUC = - (xi + i - Xi) - (yi + yi+i) . (2.20) 

1 i=l 

形式化地看， AUC 考虑的是样本预测的排序质量，因此它与排序误差有紧 
密联系.给定 m + 个正例和 m - 个反例，令和分别表示正、反例集合, 
则排序“损失” （ loss ) 定义为 

^rank = f 1 (/( X+ ) < /(*—)) + ^ (/(® + ) = /(*"))). 

x + eD + x ~ eD ~ ^ ’ 

( 2 . 21 ) 

即考虑每一对正、反例，若正例的预测值小于反例，则记一个“罚分”，若相 
等，则记 0.5 个“罚分”.容易看出， t Tank 对应的是 R 0 C 曲线之上的面 积：若 
一个正例在 R 0 C 曲线上对应标记点的坐标为 Or ， y ), 则 x 恰是排序在其之前的 
反例所占的比例，即假正例率.因此有 

AUC = 1 — i rank . (2.22) 

2.3.4 代价敏感错误率与代价曲线 

在现实任务中常会遇到这样的情况：不同类型的错误所造成的后果不同. 
例如在医疗诊断中 5 错误地把患者诊断为健康人与错误地把健康人诊断为患者， 
看起来都是犯了 “一次错误”，但后者的影响是增加了进一步检查的麻烦，前 
者的后果却可能是丧失了拯救生命的最佳 时机； 再如，门禁系统错误地把可通 
行人员拦在门外，将使得用户体验不佳，但错误地把陌生人放进门内，则会造成 
严重的安全事故.为权衡不同类型错误所造成的不同损失，可为错误赋予“非 
均等代价” (unequal cost ). 

以二分类任务为例，我们可根据任务的领域知识设定一个“代价矩 
阵” (cost matrix ) 5 如表 2.2 所示，其中 costij 表示将第 f 类样本预测为第 j 类 
样本的代价.一般来说 ， costa = 0;若将第0类判别为第1类所造成的损失更 
大，则 costoi > costio ] 损失程度相差越大， costo ； [与 costio 值的差别越大. 


表 2.2 二分类代价矩阵 


真实类别 

预测类别 

第0类 

第1类 

第0类 

0 

costoi 

第1类 

costio 

0 
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参见习题 2.7. 


“规范化” （ normaliza¬ 
tion) 是将不同变化范围的 
值映射到相同的固定范围 
中，常见的是 [0,1], 此时亦 
称“归一化”.参见习题 
2 . 8 . 


回顾前面介绍的一些性能度量可看出，它们大都隐式地假设了均等代价， 
例如式 (2.4) 所定义的错误率是直接计算“错误次数”，并没有考虑不同错误会 
造成不同的后果.在非均等代价下，我们所希望的不再是简单地最小化错误次 
数，而是希望最小化“总体代价” (total cost ). 若将表 2.2 中的第0类作为正 
类、第1类作为反类，令与分别代表样例集 D 的正例子集和反例子 
集，则“代价敏感” （ cost - sensitive ) 错误率为 


mD; cost) 


^1(/ (Xi) ^ yi) x costoi 

\xieD+ 


+ E 1 (/ ㈤# 讲 ） X cost 10 
XieD~ 


(2.23) 


类似的，可给出基于分布定义的代价敏感错误率，以及其他一些性能度量 
如精度的代价敏感版本.若令•中的 i 、 j 取值不限于0、1,则可定义出多 
分类任务的代价敏感性能度量. 

在非均等代价下， R 0 C 曲线不能直接反映出学习器的期望总体代价，而 
“代价曲线” (cost curve) 则可达到该目的.代价曲线图的横轴是取值为 [0,1] 
的正例概率代价 

P (+) co ^ =-- , (2.24) 

p X costoi + (1 — p) X cost 10 

其中 p 是样例为正例的概率；纵轴是取值为队 1] 的归一化代价 

FNR x p x costoi + FPR x (1 — p ) x costio 

cost norm = - 匕 - — T - a , 2 . 25 

p X costoi + (1 — p) x costio 

其中 FPR 是式 (2.19) 定义的假正例率 , FNR = 1 - TPR 是假反例率.代价曲线 
的绘制很简单： R 0 C 曲线上每一点对应了代价平面上的一条线段，设 R 0 C 曲 
线上点的坐标为 ( TPR , FPR ), 则可相应计算出 FNR , 然后在代价平面上绘制 
一条从 （0， FPR ) 到 （1， FNR ) 的线段，线段下的面积即表示了该条件下的期望 
总体 代价； 如此将 ROC 曲线上的每个点转化为代价平面上的一条线段，然后 
取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价，如 
图 2.5 所示. 
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FNR 


FPR 



， 0.5 

正例概率代价 

图 2.5 代价曲线与期望总体代价 


更多关于假设检验的介 
绍可参见 [ Wellek ，2010]. 


2.4 比较检验 

有了实验评估方法和性能度量，看起来就能对学习器的性能进行评估比较 
了：先使用某种实验评估方法测得学习器的某个性能度量结果，然后对这些结 
果进行比较.但怎么来做这个“比较”呢？是直接取得性能度量的值^!^后“比 
大小”吗？实际上，机器学习中性能比较这件事要比大家想象的复杂得多.这 
里面涉及几个重要因素：首先，我们希望比较的是泛化性能，然而通过实验评估 
方法我们获得的是测试集上的性能，两者的对比结果可能未必 相同； 第二，测试 
集上的性能与测试集本身的选择有很大关系，且不论使用不同大小的测试集会 
得到不同的结果，即便用相同大小的测试集，若包含的测试样例不同，测试结果 
也会有 不同； 第三，很多机器学习算法本身有一定的随机性，即便用相同的参数 
设置在同一个测试集上多次运行，其结果也会有不同.那么，有没有适当的方法 
对学习器的性能进行比较呢？ 

统计假设检验 (hypothesis test ) 为我们进行学习器性能比较提供了重要依 
据.基于假设检验结果我们可推断出，若在测试集上观察到学习器 A 比 B 好, 
则 A 的泛化性能是否在统计意义上优于 B , 以及这个结论的把握有多大.下面 
我们先介绍两种最基本的假设检验，然后介绍几种常用的机器学习性能比较方 
法.为便于讨论,本节默认以错误率为性能度量,用 e 表示. 

2.4.1 假设检验 

假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想，例 
如 “ e = eo ”. 现实任务中我们并不知道学习器的泛化错误率，只能获知其测试错 
误率纟.泛化错误率与测试错误率未必相同，但直观上，二者接近的可能性应比 
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a 的常用取值有 
0.05、 0.1, 图 2.6 中 a 较 
大是为了绘图方便. 


s . t . 是 “subject to ” 的 
简写，使左边式子在右边 
条件满足时成立. 


较大,相差很远的可能性比较小.因此，可根据测试错误率估推出泛化错误率的 
分布. 

泛化错误率为 e 的学习器在一个样本上犯错的概率是 e ; 测试错 误率纟 意味 
着在 m 个测试样本中恰有6 x m 个被误分类.假定测试样本是从样本总体分布 
中独立采样而得，那么泛化错误率为 e 的学习器将其中个样本误分类、其 
余样本全都分类正确的概率是 6 m ， ( l - 由此可估算出其恰将纟 x m 个 

样本误分类的概率如下式所示,这也表达了在包含 m 个样本的测试集上，泛化 
错误率为 e 的学习器被测得测试错误率为纟的 概率： 

P ( e ; e ) = L e ixm (l - e) m - ixrri . (2.26) 


给定测试错误率，则解 dP { e ] e)/de = 0可知， P ( e ; e ) 在 e = €时最大 ， |e — 引增 
大时 P ( e ; e ) 减小.这符合二项 ( binomial ) 分布，如图 2.6 所示，若 e = 0.3, 则10 
个样本中测得3个被误分类的概率最大. 


聲 


0.25 


0.20 


0.15 


0.10 


0.05 


0 





0 


2 


4 6 8 

误分类样本数 


10 


图 2.6 二项分布示意图 (m = 10, e = 0.3) 


我们可使用“二项检验 ” （binomial test ) 来对 “ e 彡 0.3” (即“泛化错误率是 
否不大于 0.3” ）这样的假设进行检验.更一般的，考虑假设 “e < eo ” ，则在 
1 - a 的概率内所能观测到的最大错误率如下式计算.这里1 - a 反映了结论的 
“置信度” ( confidence ), 直观地来看，相应于图 2.6 中非阴影部分的范围. 


e = maxe s . t . 


m 

E ^ 

z=eo xm+l 



e\l - e ) 171 ^ < a . 


(2.27) 






2.4 比较检验 


39 


二项检验的临界值在 R 
语言中可通过 qbinom(l - 
CK ， m ， eo ) 计算，在 Matlab 
中是 icdf (’ Binomial ’， 1 — 
a, m, eo) • 


此时若测试错误率纟小于临界值^则根据二项检验可得出结 论:在 a 的显著度 
下，假设 “ e < e 0 ” 不能被拒绝，即能以1 - a 的置信度认为，学习器的泛化错误 
率不大于 eo ; 否则该假设可被拒绝，即在 a 的显著度下可认为学习器的泛化错 
误率大于 


R 语言是面向统计计 
算的开源脚本语言，参见 
www . r - project . org . 


在很多时候我们并非仅做一次留出法估计，而是通过多次重复留出法或是 
交叉验证法等进行多次训练/测试，这样会得到多个测试错误率，此时可使用 
“ t 检验” （ t - test ). 假定我们得到了&个测试错误率，纟 2 , ... ，4,则平均测试 
错误率 M 和方差 a 2 为 

fc 

( 2 . 28 ) 


a 



kh: E ( e 〜 - ") 2 • 

i=l 


(2.29) 


考虑到这 A : 个测试错误率可看作泛化错误率 eo 的独立采样，则变量 



服从自由度为 A : - 1的*分布，如图 2.7 所示. 


(2.30) 



对假设和显著度 a ， 我们可计算出当测试错误率均值为 eo 时，在 
1 - a 概率内能观测到的最大错误率，即临界值.这里考虑双边 ( two - tailed ) 假 
设，如图 2.7 所示，两边阴影部分各有 a /2 的面积；假定阴影部分范围分别为 
[― oo, 和 [ t a /2 , oo] . 若平均错误率"与 e 0 之差 l/i — e 0 | 位于临界值范围 
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临界值 t a / 2 在 R 语言 
中可通过 q t(l — a/2, A: - 
1) 计算，表 Matlab 中是 
icdf (’T’，l — a/2,k~ 1). 



[ t - a / 2 , t a/2 ] ft , 则不能拒绝假设> = CO ”， 即可认为泛化错误率为句，置信度为 
1- Q ； 否则可拒绝该假设，即在该显著度下可认为泛化错误率与€0有显著不 
同 . a 常用取值有 0.05 和 0.1. 表 2.3 给出了一些常用临界值. 


表 2.3 双边 f 检验的常用临界值 


Cm 



k 




2 

5 

10 

20 

30 

0.05 

12.706 

2.776 

2.262 

2.093 

2.045 

0.10 

6.314 

2.132 

1.833 

1.729 

1.699 


上面介绍的两种方法都是对关于单个学习器泛化性能的假设进行检验，而 
在现实任务中，更多时候我们需对不同学习器的性能进行比较，下面将介绍适 
用于此类情况的假设检验方法. 

2.4.2 交叉验证 t 检验 

对两个学习器 A 和 B ,若我们使用折交叉验证法得到的测试错误率分 
别为#， ... ，螳和 ef , ef ，...，<，其中 ef 和 ef 是在相同的第 i 折训练/测 
试集上得到的结果，则可用 fc 折交叉验证“成对 t 检验” (paired t - tests ) 来进行 
比较检验.这里的基本思想是若两个学习器的性能相同，则它们使用相同的训 
练/测试集得到的测试错误率应相同，即< = ef . 

具体来说，对 A ; 折交叉验证产 生的& 对测试错误率：先对每对结果求差， 
A , - ef - ef ;若两个学习器性能相同，则差值均值应为零.因此，可根据差值 
A 1? A 2 ,..., A fc 来对“学习器 A 与 B 性能相同”这个假设做 t 检验，计算出差值 
的均值 / x 和方差 a 2 , 在显著度 a 下，若变量 


\fk\i 
n 二 - 

G 


(2.31) 


小于临界值 t aA n ， 则假设不能被拒绝，即认为两个学习器的性能没有显著差 
别； 否则可认为两个学习器的性能有显著差别，且平均错误率较小的那个学习 
器性能较优.这里 t a/2 , 是自由度为& _ 1的 t 分布上尾部累积分布为 a /2 
的临界值. 

欲进行有效的假设检验，一个重要前提是测试错误率均为泛化错误率的独 
立釆样.然而，通常情况下由于样本有限，在使用交叉验证等实验估计方法时, 
不同轮次的训练集会有一定程度的重叠，这就使#测试错误率实际上并不独立, 
会导致过高估计假设成立的概率.为缓解这一问题，可釆用 “5 x 2交叉验证” 


2.4 比较检验 


中文称为“卡方分布 


临界值 xi 在 R 语 
言中可通过 qchisq(l — 
a ， fc —1) 计算 ，袅 Matlab 中 

是 icdf (’ CMsquare ’， 1 — 
a , k — 1 ) ■ 这里的 k = 2 
是进行比较的算法个数. 
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法 [ Dietterich , 1998]. 


5 x 2 交叉验证是做5次2折交叉验证，在每次2折交叉验证之前随机将数 
据打乱，使得5次交叉验证中的数据划分不重复.对两个学习器 A 和 B , 第 i 次 


2 折交叉验证将产生两对测试错误率，我们对它们分别求差，得到第 1 折上的差 
值 A, 1 和第 2 折上的差值 Af. 为缓解测试错误率的非独立性，我们仅计算第 1 
次2折交叉验证的两个结果的平均值 /i = 0.5(Ai + A ?), 但对每次2折实验的 
结果都计算出其方差 4 = (△〖 — ^±^) 2 + ( a |- 变量 



(2.32) 


服从自由度为5的 t 分布，其双边检验的临界值 t a/2 , 5 当^ = 0.05 时为2.5706, 
a = 0.1 时为 2.0150. 


2.4.3 McNemar 检验 

对二分类问题，使用留出法不仅可估计出学习器 A 和 B 的测试错误率，还 
可获得两学习器分类结果的差别，即两者都正确、都错误、一个正确另一个错 
误的样本数，如“列联表” (contingency table ) 2.4 所示. 

表 2.4 两学习器分类差别列联表 


算法 B 

算法 A 

正确 

错误 

正确 

己00 

eoi 

错误 

eio 

en 


若我们做的假设是两学习器性能相同，则应有 e(n = ei0 , 那么变量 
| e 0 i - eio | 应当服从正态分布，且均值为 1 ，方差为 ecu + e 1() . 因此变量 


丁 X 2 


(| e 01 — eip | - I) 2 
eoi + eio 


(2.33) 


服从自由度为1的 X 2 分布，即标准正态分布变量的平方.给定显著度 a , 当以 
上变量值小于临 界值; ^时，不能拒绝假设，即认为两学习器的性能没有显著差 
别； 否则拒绝假设，即认为两者性能有显著差别，且平均错误率较小的那个学习 
器性能较优.自由度为1的 X 2 检验的临界值当 a = 0.05 时为 3.8415, a = 0.1 
时为 2.7055. 
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2.4.4 Friedman 检验与 Nemenyi 后续检验 

交叉验证 t 检验和 McNemar 检验都是在一个数据集上比较两个算法的 
性能，而在很多时候，我们会在一组数据集上对多+算法进行比较.当有多个 
算法参与比较时，一种做法是在每个数据集上分别列出两两比较的结果，而在 
两两比较时可使用前述 方法； 另一种方法更为直接，即使用基于算法排序的 
Friedman 检验. 

假定我们用乃1、乃2、乃3和乃4四个数据集对算法 A 、 B 、 C 进行比较. 
首先，使用留出法或交叉验证法得到每个算法在每个数据集上的测试结果，然 
后在每个数据集上根据测试性能由好到坏排序，并赋予序值1，2 ,若算法的 
测试性能相同，则平分序值.例如，在和 D 3 上， A 最好、 B 其次、 C 最差 5 

而在乃 2 上, A 最好、 B 与 C 性能相同， . ，则可列出表2.5,其中最后一行通 

过对每一列的序值求平均，得到平均序值. 


表 2.5 算法比较序值表 


数据集 

算法 A 

算法 B 

算法 C 

Di 

1 

2 

3 

d 2 

1 

2.5 

2.5 

D 3 

1 

2 

3 

d 4 

1 

2 

3 

平均序值 

1 

2.125 

2.875 


然后，使用 FYiedman 检验来判断这些算法是否性能都相同.若相同，则它 


们的平均序值应当相同.假定我们在 iV 个数据集上比较 / c 个算法，令^表示第 
i 个算法的平均序值，为简化讨论，暂不考虑平分序值的情况，则^服从正态分 
布，其均值和方差分别为 （ A : + 1)/2 和 （ A: 2 - 1)/12. 变量 


丁 X 2 


k 


k 


k 


12 N 


12 ^ tE (^ 


k 2 — 1 


i—l 


k + 

~Y 


2 


k(k + 1 ) 


A=1 


Va 


k{k + 1) : 


在 A ; 和 iV 都较大时，服从自由度为 - 1的 x 2 分布. 


(2.34) 


然而，上述这样的“原始 Friedman 检验”过于保守，现在通常使用变量 



(2.35) 




2.4 比较检验 


F 检验的临界值在 R 语 
言中可通过 qf(l — a , k - 
l ,(/ c - l)(AT —1)) 计算，在 
Matlab 中是 icdf (’ F ’，1 — 


是 Tukey 分布的临 
界值，在 R 语言中可通 
iiqtukeyd — a, k , Inf ) / 
sqrt (2) 计算. 
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其中 T X 2 由式 (2.34) 得到 • 服从自由度为 k - im ( k - 1 )(N — 1) 的 F 分布 5 

表 2.6 给出了一些常用临界值. 


表 2.6 F 检验的常用临界值 


a = 0.05 

数据集 
个数 iV 




算法个数 A : 




2 

3 

4 

5 

6 

7 

8 

9 

10 

4 

10.128 

5.143 

3.863 

3.259 

2.901 

2.661 

2.488 

2.355 

2.250 

5 

7.709 

4.459 

3.490 

3.007 

2.711 

2.508 

2.359 

2.244 

2.153 

8 

5.591 

3.739 

3.072 

2.714 

2.485 

2.324 

2.203 

2.109 

2.032 

10 

5.117 

3.555 

2.960 

2.634 

2.422 

2.272 

2.159 

2.070 

1.998 

15 

4.600 

3.340 

2.827 

2.537 

2.346 

2.209 

2.104 

2.022 

1.955 

20 

4.381 

3.245 

2.766 

2.492 

2.310 

2.179 

2.079 

2.000 

1.935 

a , = 0.1 

数据集 




算法个数 ib 




个数 N 

2 

3 

4 

5 

6 

7 

8 

9 

10 

4 

5.538 

3.463 

2.813 

2.480 

2.273 

2.130 

2.023 

1.940 

1.874 

5 

4.545 

3.113 

2.606 

2.333 

2.158 

2.035 

1.943 

1.870 

1.811 

8 

3.589 

2.726 

2.365 

2.157 

2.019 

1.919 

1.843 

1.782 

1.733 

10 

3.360 

2.624 

2.299 

2.108 

1.980 

1.886 

1.814 

1.757 

1.710 

15 

3.102 

2.503 

2.219 

2.048 

1.931 

1.845 

1.779 

1.726 

1.682 

20 

2.990 

2.448 

2.182 

2.020 

1.909 

1.826 

1.762 

1.711 

1.668 


若“所有算法的性能相同”这个假设被拒绝，则说明算法的性能显著不 
同.这时需进行“后续检验” （ post-hoc test ) 来进一步区分各算法.常用的有 
Nemenyi 后续检验. 

Nemenyi 检验计算出平均序值差别的临界值域 

CD = ， (2-36) 

表 2.7 给出了 a = 0.05 和 0.1 时常用的如值.若两个算法的平均序值之差超出 
了临界值域 CD , 则以相应的置信度拒绝“两个算法性能相同”这一假设. 

表 2.7 Nemenyi 检验中常用的如值 


a 




算法个数 




2 

3 

4 ■ 

5 

6 

7 

8 

9 

10 

0.05 

0.1 

1.960 

1.645 

2.344 

2.052 

2.569 

2.291 

2.728 

2.459 

2.850 

2.589 

2.949 

2.693 

3.031 

2.780 

3.102 

2.855 

3.164 

2.920 
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有可能出现噪声使得 

VD ^ V- 


以表 2.5 中的数据为例，先根据式 (2.34) 和 (2.35) 计算出 t f = 24.429, 由表 
2.6 可知，它大于 a = 0.05 时的 F 检验临界值 5.143, 因此拒绝“所有算法性 
能相同”这个假设.然后使用 Nemenyi 后续检验，在表 2.7 中找到 A: = 3 时 
q 0 . 0 5 = 2.344, 根据式 (2.36) 计算出临界值域 CD = 1.657, 由表 2.5 中的平均序 
值可知，算法 A 与 B 的差距，以及算法 B 与 C 的差距均未超过临界值域，而算 
法 A 与 C 的差距超过临界值域，因此检验结果认为算法 A 与 C 的性能显著不 
同，而算法 A 与 B 、 以及算法 B 与 C 的性能没有显著差别. 

上述检验比较可以直观地用 Friedman 检验图显示.例如根据表 2.5 的序 
值结果可绘制出图2.8,图中纵轴显示各个算法，横轴是平均序值.对每个算法， 
用一个圆点显示其平均序值，以圆点为中心的横线段表示临界值域的大小.然 
后就可从图中观察，若两个算法的横线段有交叠，则说明这两个算法没有显著 
差别，否则即说明有显著差别.从图 2.8 中可容易地看出，算法 A 与 B 没有显著 
差别，因为它们的横线段有交叠区域，而算法 A 显著优于算法 C ， 因为它们的 
横线段没有交叠区域. 


算法 A 
算法 B 
算法 C 

1.0 2.0 3.0 

图 2.8 Friedman 检验图 

2.5 偏差与方差 

对学习算法除了通过实验估计其泛化性能，人们往往还希望了解它“为什 
么”具有这样的性能.“偏差-方差分解” （ bias-variance decomposition ) 是解 
释学习算法泛化性能的一种重要工具. 

偏差-方差分解试图对学习算法的期望泛化错误率进行拆解.我们知道，算 
法在不同训练集上学得的结果很可能不同，即便这些训练集是来自同一个分布. 
对测试样本 a ?， 令 yD 为 x 在数据集中的标记, y 为 x 的真实标记， /( a ?; D ) 为训 
练集乃上学得模型/在*上的预测输出.以回归任务为例，学习算法的期望预 


临羽直域 




平均序值 


♦ 







2.5 偏差与万差 


测为 
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f ( x )= E D [ f ( X ] D )} , 

(2.37) 

使用样本数相冋的不问训练集产生的方差为 


var(x) = Ed (^f (x; D) ~ f (x)) 2 , 

(2.38) 

噪声为 

e 2 = Ed (vd - y ) 2 • 

(2.39) 

期望输出与真实标记的差别称为偏差 ( bias ), 即 


bias 2 (x) — (/ (x) — y ) 2 • 

(2.40) 


为便于讨论，假定噪声期望为零，即 E D [y D -y}=0. 通过简单的多项式展开合 
并，可对算法的期望泛化误差进行 分解： 

E(f;D)=E D [(f(x;D)-y D f 

=E d (/ (x; D) - f(x) + f(x) - y D ) 2 
=^D (/ (x; D) - f (x)) 2 +E d (f(x)-y D ) 2 

一 &W» «H 

+ [2 (f (X' D) - f{x)) (f(x) -Vd)] 

[(f (x; D) - f (x)) 2 ] +E d [(/— ㈤ — y D ) 2_ 

=^d (f {x;D)~ f(x)) 2 +E d (f(x)-y + y-y D ) 2 

Im 輪 

= E D \(f(x;D)-f (x)) 2 ] +E D \(f(x) -y) 2 ]+E D \(y ~ y D f 

_ Wm» mJ Imk mu 

+ 2E d [(f(x) — y) (y - vd)] 

= (/ {x;D) — f ( a?)) 2 -H (/ (x) — y) 2 + (vd ~ y ) 2 ? 

(2.41) 

于是， 

E[f' D ) 二 bias 2 (x) + var (®) + P , (2.42) 

也就是说，泛化误差可分解为偏差、方差与噪声之和. 

回顾偏差、方差、噪声的含义：偏差 (2.40) 度量了学习算法的期望预测与 


由式 (2.37), 最后项为 0. 


噪声期望为0, 
因此最后项为 0. 
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很多学习算法都可控制 
训练程度，例如决策树可 
控制层数，神经网络可控 
制训练轮数，集成学习方 
法可控制基学习器个数. 


真实结果的偏离程度，即刻画了学习算法本身的拟合能力；方差 (2.38) 度量了同 
样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的 
影响； 噪声 (2.39) 则表达了在当前任务上任何学习算法所能达到的期望泛化误 
差的下界，即刻画了学习问题本身的难度.偏差-方差分解说明，泛化性能是由 
学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的.给定 
学习任务，为了取得好的泛化 性能， 则需使偏差较小，即能够充分拟合数据，并 
且使方差较小，即使得数据扰动产生的影响小. 

一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境 ( bias-variance 
dilemma ). 图 2.9 给出了一个示意图.给定学习任务，假定我们能控制学习算法 
的训练程度，则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足 
以使学习器产生显著变化，此时偏差主导了泛化错 误率； 随着训练程度的加深, 
学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学到，方差 
逐渐主导了泛化错误率；在训练程度充足后，学习器的拟合能力已非常强，训练 
数据发生的轻微扰动都会导致学习器发生显著变化，若训练数据自身的、非全 
局的特性被学习器学到了，则将发生过拟合. 



图 2.9 泛化误差与偏差、方差的关系示意图 


2.6 阅读材料 

自助采样法在机器学习中有重要用途 ， [Efron and Tibshirani ，1993] 对此 
进行了详细的讨论. 

ROC 曲线在二十世纪八十年代后期被引入机器学习 [ Spackman , 1989], 
AUC 则是从九十年代中期起在机器学习领域广为使用 [ Bradley , 1997], 但利用 





2.6 阅读材料 
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2.3.4 节仅讨论了基于类 
别的误分类代价， 


ROC 曲线下面积来评价模型期望性能的做法在医疗检测中早已有之 [Hanley 
and McNeil , 1983]. [Hand and Till ，2001] 将 ROC 曲线从二分类任务推广到多 
分类任务. [ Fawcett , 2006] 综述了 ROC 曲线的用途. 

[Drummond and Holte , 2006] 发明了代价曲线.需说明的是，机器学习过 
程涉及许多类型的代价，除了误分类代价，还有测试代价、标记代价、属性代 
价等，即便仅考虑误分类代价，仍可进一步划分为基于类别的误分类代价以及 
基于样本的误分类代价.代价敏感学习 ( cost-sensitive learning ) [ Elkan , 2001; 
Zhou and Liu , 2006] 专门研究非均等代价下的学习. 

[ Dietterich , 1998] 指出了常规 A : 折交叉验证法存在的风险，并提出了 5 x 2 
交叉验证法. [ Demsar , 2006] 讨论了对多个算法进行比较检验的方法. 

[Genian et al. 5 1992] 针对回归任务给出了偏差-方差-协方差分解 ( bia ^- 
variance-covariance decomposition ), 后来被简称为偏差-方差分解.虽然偏差 
和方差确实反映了各类学习任务内在的误差决定因素，但式 (2.42) 这样优美的 
形式仅在基于均方误差的回归任务中得以推导出.对分类任务，由于0/1损失 
函数的跳变性，理论上推导出偏差-方差分解很困难.已有多种方法可通过实 
验对偏差和方差进行估计 [Kong and Dietterich , 1995; Kohavi and Wolpert , 
1996; Breiman , 1996; Friedman , 1997; Domingos , 2000]. 
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习题 

2.1 数据集包含1000个样本,其中500个正例、500个反例，将其划分为 
包含70%样本的训练集和30%样本的测试集用于留出法评估，试估 
算共有多少种划分 方式. 

2.2 数据集包含100个样本，其中正、反例各 一半， 假定学习算法所产生 
的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时 
进行随机猜测)，试给出用10折交叉验证法和留 一 法分别对错误率进 
行评估所得的结果. 


2.3 若学习器 A 的 F 1 值比学习器 B 高，试析 A 的 BEP 值是否也比 B 高. 

2.4 试述真正例率 ( TPR )、 假正例率 ( FPR ) 与查准率 ( P )、 查全率 ( R ) 之间 
的联系. 

2.5 试证明式 (2.^2). 

2.6 试述错误率与 ROC 曲线的联系. 


2.7 试证明任意一条 ROC 曲线都有一条代价曲线与之对应，反之亦然. 

2.8 Min - max 规范化和 z - score 规范化是两种常用的规范化方法.令 a ; 和 
x r 分别表示变量在规范化前后的取值，相应的，令和 x max 表示 
规范化前的最小值和最大值，和 x f max 表示规范化后的最小值和 
最大值，5和分别表示规范化前的均值和标准差，则 min - max 规范 
化、 z-score 规范化分别如式 (2.43) 和 (2.44) 所示.试析二者的优缺点. 


x — x 


X 


nun 


min 


^max — ^min 


X ip^max — ^min)"> 


, X — X 
X = —:- 


(2.43) 

(2.44) 


2.9 试述 x 2 检验过程. 

2.10* 试述在 Friedman 检验中使用式 (2.34) 与 (2.35) 的区另 lj . 
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1954年该厂开始出版 
《吉尼斯世界纪录大全》. 


休息一会儿 


小 故事： t 检验、啤酒、“学生”与威廉•戈瑟特 

1899年，由于爱尔兰都柏林的吉尼斯啤酒厂热衷于聘 
用剑桥、牛津的优秀毕业生，学化学的牛津毕业生威廉•戈 
瑟特 （"William Gosset , 1876 一 1937) 到该厂就职，希望将他 
的生物化学知识用于啤酒生产过程.为降低啤酒质量监控 
的成本，戈瑟特发明了 f 检验法，1908年在 Biometrika 良 
表.为防止泄漏商业机密，戈瑟特发表文章时用了笔名“学生 
称为“学生氏 t 检验” ( Student’s t-test). 



,于是该方法被 


吉尼斯啤酒厂是一家很有远见的企业，为保持技术人员的高水准，该 
厂像高校一样给予技术人员“学术假” ， 1906—1907 年戈瑟特得以到“统 
计学之父”卡尔•皮尔逊 (Karl Pearson, 1857— 1936) 教授在伦敦大学学院 
(University College London, 简称 UCL) 的实验室访问学习.因此，很难说尤 
检验法是戈瑟特在啤酒厂还是在 UCL 访学期间提出的，但“学生”与戈 
瑟特之间的联系是被 UCL 的统计学家们发现的，尤其因为皮尔逊教授恰是 
Biometrika 的主编. 





第 3 章线性模型 


3.1 基本形式 

给定由 d 个属性描述的示例 a ? = ( a ： i ； x 2 ;... 其中 A 是 cc 在第 f 个属 
性上的取值，线性模型 (linear model ) 试图学得一个通过属性的线性组合来进行 
预测的函数，即 

f ( x ) = W1X1 + W 2 X 2 + ... + WdXd H - b , (3.1) 

一般用向量形式写成 

f ( x ) = w T x + b , (3.2) 

其中 ty ==： — 1; 忉 2; ... ;夠).和6学得之后，模型就得以确定. 

线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思 
想.许多功能更为强大的非线性模型 (nonlinear model ) 可在线性模型的基础上 
通过引入层级结构或高维映射而得.此外，由于 w 直观表达了各属性在预测中 
亦称 理解性 ” （ un- 的重要性，因此线性模型有很好的可解释性 ( com p re hensibility ). 例如若在西瓜 

derstandabihty). 

问题中学得“/好瓜 ( a ?) ; 0.2 . t 色泽+ 0.5 • r 根蒂+ 0.3 • r 敲声+ 1”，则意味着可 
通过综合考虑色泽、根蒂和敲声来判断瓜好不好，其中根蒂最要紧，而敲声比 
色泽更重要. 

本章介绍几种经典的线性模型.我们先从回归任务开始，然后讨论二分类 
和多分类任务. 

3.2 线性回归 

给定数据集乃= {(a?i, yi), (aj 2 ,2/2), • • • , ( x m , y m )}, 其中 = (阳; 
而 2 ;…；心)，队 G M . “线性回归 ” （linear regression ) 试图学得一个线性模 
型以尽可能准确地预测实值输出标记. 

我们先考虑一种最简单的 情形： 输入属性的数目只有一个.为便于讨论，此 
时我们忽略关于属性的下标，即 P = {{ xuyi )} f = 1 , 其中而 e R . 对离散属性, 
若属性值间存在“序” （ order ) 关系，可通过连续化将其转化为连续值，例如二 
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若将无序属性连续化, 
则会不恰当地引入序关系, 
对后续处理如距离计算等 
造成误导，参见 9.3 节. 


均方误差亦称平方损失 
(square loss ). 


w *, b * 表示 w 和?)的解. 


最小二乘法用途很广， 
不仅限于线性回归. 


这里是关于 w 和 
6的凸函数，当它关于 it ; 和 
b 的导数均为零时，得到 w 
和6的最优解. 

对区间 [ a , 6] 上定义 
的函数/,若它对区间 
中任意两点： Cl , CC 2 均有 

j ； ^x 1 +x 2 ) 彡 f(xi)+f(x 2 ) 

则称/为区间 [ a , 6] 上的凸 
函数. 

U 形曲线的函数如 
/0) =: r 2 , 通常是凸函数. 

对实数集上的函数，可 
通过 求二阶导数来 判别: 
若二阶导数在区间上非负, 
则称为凸 函数； 若二阶导 
数在区间上恒大于0,则称 
为严格凸函数. 


值属性“身高”的取值“高” “矮”可转化为 {1.0,0.0}, 三值属性“高度” 
的取值“高” “中” “低”可转化为 {1.0,0.5,0.0}; 若属性值间不存在序关 
系，假定有 A : 个属性值，则通常转化为 A 维向量，例如属性“瓜类”的取值“西 
瓜” “南瓜” “黄瓜”可转化为（0,0,1)，(0，1,0)，(1，0,0). 

线性回归试图学得 


f ( xi ) = wxi + 6,使得 f ( Xi)n 


(3.3) 


如何确定切和6呢？显然，关键在于如何衡量/(4与?/之间的差别 . 2.3 节 
介绍过，均方误差 （2.2) 是回归任务中最常用的性能度量，因此我们可试图让均 
方误差最小化，即 


( 扣 * ， 6*) = argmin ^ (/ (^) - yif 

(― )i=i 
m 

= arg min fa — wxi — b ) 2 . (3.4) 

(_) 2=1 


-均方误差有非常好的几何意义，它对应了常用的欧几里得距离或简称“欧 
氏距离” (Euclidean distance ). 基于均方误差最小化来进行模型求解的方法称 
为“最小二乘法” (least square method ). 在线性回归中，最小二乘法就是试图 
找到一条直线，使所有样本到直线上的欧氏距离之和最小. 


求解切和 M 吏 E ㈣= EZliVi ~ ~ b ) 2 最小化的过程,称为线性回归 
模型的最小二乘“参数估计” (parameter estimation ). 我们可将五分别 
对 w 和6求导，得到 



然后令式 (3.5) 和 (3.6) 为零可得到切和6最优解的闭式 ( closed - form ) 解 




m 

E yi(xi-x) 

_ i=l _ _ 

m / m \ 

i=l \ i=l J 




(3.7) 






3.2 线性回归 
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亦称 

归”. 


Hi — wxi) 5 (3.8) 

m 

其中$ ^ t 化为$的 均值. 

i—1 

更一般的情形是如本节开头的数据集 D ， 样本由^个属性描述.此时我们 
试图学得 

f(xi) = w T Xi + 6,使得 f(xi) yi , 



多变量线性回 这称为“多元线性回归 ” （multivariate linear regression ). 


类似的，可利用最小二乘法来对 w 和6进行估计.为便于讨论，我们把 w 
和6吸收入向量形式 A = 6), 相应的，把数据集乃表示为一个 m x ( d + 1) 

大小的矩阵 X ，其中每行对应于一个示例，该行前 d 个元素对应于示例的 d 个 
属性值,最后一个元素恒置为1，即 


X 


(Xu Xu 

X21 X22 


^ld 

^2 d 


l \ 


^m2 • * • ^md 1 J 


( x J A 
1 


\®m 1 / 


再把标记也写成向量形式 2 / = (2/ i ;2/2；-..；2/ m ), 则类似于式 (3.4: 


arg min (y — Xw) T (y — X . w ) 


(3.9) 


令 E 也 =、y — Xw) T (y - XA ), 对 tl ; 求导得到 

磬 = 2 X T (XA — y). 


(3.10) 


令上式为零可得 A 最优解的闭式解，但由于涉及矩阵逆的计算，比单变量情形 
要复杂一些.下面我们做一个简单的讨论. ' 

当 X T X 为满秩矩阵 ( full-rank matrix ) 或正定矩阵 (positive definite ma ¬ 
trix ) W , 令式 (3.10) 为零可得 


w * = ( X T X . y 1 X T y , (3.11) 

其中 ( X T X ) _1 是矩阵 ( X T X ) 的逆矩阵.令私=则最终学得的多元 




56 


线性回归模型为 


第3章线性模型 


例如，生物信息学的基 
因芯片数据中常有成千上 
万个属性，但往往只有几 
十、上百个样例. 

回忆 一下： 解线性方程 
组时，若因变量过多，则会 
解出多组解. 

归纳偏好参见1 .4 节；正 
则化参见6.4、 11.4 节. 


(3.12) 

然而,现实任务中 X T X 往往不是满秩矩阵.例如在许多任务中我们会遇到 
大量的变量，其数目甚至超过样例数，导致 X 的列数多于行数， X T X 显然不满 
秩.此时可解出多个它们都能使均方误差最小化.选择哪一个解作为输出， 
将由学习算法的归纳偏好决定，常见的做法是引入正则化 （ regularization ) 项. 

线性模型虽简单，却有丰富的变化.例如对于样例 { x , y ), yeR , 当我们希 
望线性模型 (3.2) 的预测值逼近真实标记 y 时，就得到了线性回归模型.为便于 
观察，我们把线性回归模型简写为 

y = w T x + b . (3.13) 

可否令模型预测值逼近2/的衍生物呢？譬如说，假设我们认为示例所对应的输 
出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目 
标，即 

Iny = w T x + b . (3.14) 

这就是“对数线性回归” （ log-linear regression ), 它实际上是在试图让 
逼近 y . 式 (3.14) 在形式上仍是线性回归，但实质上已是在求取输入空间到输出 
空间的非线性函数映射，如图 3.1 所示.这里的对数函数起到了将线性回归模 
型的预测值与真实标记联系起来的作用. 


















3.3 对数几率回归 


更一般地，考虑单调可微函数 p (.), 令 
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g (-) 连续且充分光滑 ■ 


广义线性模型的参数估 
计常通过加权最小二乘法 
或极大似然法进行. 


亦称 Heaviside 函数. 


y = 9 


(w T x + b ) , 


(3.15) 


这样得到的模型称为“广义线性模型” (generalized linear model ), 其中函数 
^ ㈠ 称为“联系函数” (link function ). 显然，对数线性回归是广义线性模型在 
〆 .） = ln (.) 时的特例. 


3.3 对数几率回归 

上一节讨论了如何使用线性模型进行回归学习，但若要做的是分类任务该 
怎么办？答案蕴涵在式 (3.15) 的广义线性模 型中： 只需找一个单调可微函数将 
分类任务的真实标记 y 与线性回归模型的预测值联系起来. 

考虑二分类任务，其输出标记 y G {0,1}, 而线性回归模型产生的预测值 
z ^ w T x + b 是实值，于是，我们需将实值 z 转换为0/1值.最理想的是“单位 
阶跃函数” ( unit-step function ) 

0, 2; < 0 ; 

y =《0.5 ， z = 0 ; (3.16) 


即若预测值 z 大于零就判为正例，小于零则判为反例，预测值为临界值零则可 
任意判别，如图 3.2 所示. 



图 3.2 单位阶跃函数与对数几率函数 
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简称“对率函数”. 


注意对数几率函数与 
“对数函数” ln (.) 不同. 


Sigmoid 函数即形似 S 
的函数.对率函数是 Sig ¬ 
moid 函数最重要的代表, 
在第5章将看到它在神经 
网络中的重要作用. 


有文献译为“逻辑回 
归”，但中文“逻辑”与 
logistic 和 logit 的含义相 
去甚远，因此本书意译为 
“对数几率回归”，简称 
“对率回归”. 


但从图 3.2 可看出，单位阶跃函数不连续，因此不能直接用作式 (3.15) 中 
的分 - ㈠ . 于是我们希望找到能在一定程度上近似单位阶跃函数的“替 
代函数” (surrogate function ), 并希望它单调可微.对数几率函数 (logistic 
function ) 正是这样一个常用的替代函数： 


V ~ l + e~ z ' 

(3.17) 

从图 3.2 可看出，对数几率函数是种 
接近0或1的?/值，并且其输出值在 z = 
沒一 ㈠ 代入式 (3.15), 得到 

“ Sigmoid 函数”，它将 z 值转化为一个 
= 0附近变化很陡.将对数几率函数作为 

a 1 - 

1 

(3.18) 

^ 1 + e -( w T x -\- b ) 

类似于式 (3.14), 式 (3.18) 可变化为 




: w T x -f b . 

(3.19) 


若将 y 视为 样本® 作为正例的可能性，则1 - 2/是其反例可能性，两者的比值 


称为“几率” ( odds ), 反映了 t 作为正例的相对可能性.对几率取对数则得到 
“对数几率 ” （log odds , 亦称 logit ) 

ln -^ — . (3.21) 

i-y 、 ） 

由此可看出，式 (3.18) 实际上是在用线性回归模型的预测结果去逼近 
真实标记的对数几率，因此，其对应的模型称为“对数几率回归 ” （logistic 
regression , 亦称 logit regression ). 特别需注意到，虽然它的名字是“回归”，但 
实际却是一种分类学习方法.这种方法有很多优点.，例如它是直接对分类可能 
性进行建模，无需事先假设数据分布，这样就避免了假设分布不准确所带来的 
问题； 它不是仅预测出“类别”，而是可得到近似概率预测，这对许多需利用概 
率辅助决策的任务很 有用； 此外，对率函数是任意阶可导的凸函数,有很好的数 
学性质，现有的许多数值优化算法都可直接用于求取最优解. 





3.3 对数几率回归 
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极大似然法参见 7.2 节. 


参见附录 B .4. 


下面我们来看看如何确定式 (3.18) 中 的切和 6. 若将式 (3.18) 中的 y 视为类 
后验概率估计 p(y = l\x) 1 则式 (3.19) 可重写为 



p(y = 0 | x ) 

rp 

= w x 4 - b . 

(3.22) 

显然有 

p(y = 1 

卜 ) = 

e w T x+b 

(3.23) 


1 + e w T x+b ? 


p(y = o 

卜）二 

1 

(3.24) 


1 + e wTxJ ^ b * 

于是，我们可通过 

“极大似然法” 

(maximum likelihood method) 来估计 

和 6. 给定数据集 {(Xi.yi)}^, 对率回归模型最大化 

“对数似然” (log- 

likelihood) 


m. 




£(w, b ) = 

| Xi]w,b) , 

(3.25) 


即令每个样本属于其真实标记的概率越大越好.为便于讨论，令/3 = ( wib ), 
金= ( x ; 1)，则 w T x + 6可简写为 /3 t x. 再令 pi(x;f3) = p(y = 1 | x;/3), 
Po(x;(3) = p(y = 0\x;f3) = 1 -pi(x;/3), 则式 (3.25) 中的似然项可重写为 


p(yi I Xi ； w,b) = yiPi(xi ； (3) + (1- yi)p o (xi ； 0) . (3.26) 

将式 (3.26) 代入 (3.25)， 并根据式 (3. 2 3) 和 (3. 24 ) 可知，最大化式 (3.25) 等价于 
最小化 

m 

m = Yj ( lW T 屯 + In (1 + e 作 ))• (3.27) 

i=l 

式 (3.27) 是关于 /3 的高阶可导连续凸函数，根据凸优化理论 [Boyd and 
Vandenberghe , 2004], 经典的数值优化算法如梯度下降法 (gradient descent 
method )、 牛顿法 (Newton method ) 等都可求得其最优解，于是就得到 

/3* = argmin ^(/3). 

/3 

以牛顿法为例，其第 t + 1轮迭代解的更新公式为 

,^ \ - 1 di (/ 3 ) 


(3.28) 


(3.29) 
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= -史免 i(yi - 的) ， (3.30) 

=^ x i xjp 1 ( x i ]0 )(l - p ^ Xi ； /3)) . (3.31) 

2=1 


3.4 线性判别分析 


严格说来 LDA 与 Fisher 
判别分析稍有不同，前者 
假设了各类样本的协方差 
矩阵相同且满秩. 


线性判别分析 (Linear Discriminant Analysis , 简称 LDA ) 是一种经典的线 
性学习方法，在二分类问题上因为最早由 [ Fisher , 1936] 提出，亦称 “ Fisher 判 
别分析”. 

LDA 的思想非常 朴素： 给定训练样例集，设法将样例投影到一条直线上， 
使得同类样例的投影点尽可能接近、异类样例的投影点尽可能 远离； 在对新样 
本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新 


样本的类别.图 3.3 给出了一个二维示意图. 



图 3.3 LDA 的二维示意图.“+”、“-”分别代表正例和反例，橢圆表示数据簇的 
外轮廓，虚线表示投影，红色实心圆和实心三角形分别表示两类样本投影后的中心点. 


给定数据集 D = {(^,^)}^ l5 yi e {0,1}, 令 Xi 、 叫、 K 分别表示第 
iG {0,1} 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线 切上， 
则两类样本的中心在直线上的投影分别为和 w T ^ 若将所有样本点都 
投影到直线上，则两类样本的协方差分别为和 w T ^ lW . 由于直线是 

















3.4 线性判别分析 
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一维空间 5 因此和切 T Srw ; 均为实数. 

欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可 
能小，即 + 尽可 能小； 而欲使异类样例的投影点尽可能远离, 
可以让类中心之间的距离尽可能大，即 || 切 T / X 0- 尽可能大.同时考虑 
二者，则可得到欲最大化的目标 


J 


\\w T ^LO ^ W T ^\\1 
w T Yiow + w T Y，iw 


•T 


(Mo — Mi)(Mo — Mi ) 忉 
W T ( Eq -f ^ l)w 


(3.32； 


定义“类内散度矩阵” ( within-class scatter matrix ) 


S 扣 = So + Si 

= (^ - Mo) - Mo) T + - Mi) ( x - Ml) 

qc^Xq q?G-X^i 

以及“类间散度矩阵” （ between-class scatter matrix ) 


T 


:3.33) 


= (Mo — Mi) (Mo — Mi) 


T 


(3.34) 


则式 (3.32) 可重写为 


J 


w T Si)W 


(3,35) 


w T S w w 

这就是 LDA 欲最大化的目标，即 S fe 与％的“广义瑞利商” (generalized 
Rayleigh quotient ). 


如何确定 w 呢？注意到式 (3.35) 的分子和分母都是关于 w 的二次项 5 因此 


若是一个解，则对 
于任意常数 a , o：tu 也是 
式 (3.35) 的解. 

式 (3.35) 的解与 w 的长度无关,只与其方向有关.不失- 
则式 (3.35) 等价于 

一般性，令 = 1, 

•r 


min 

W 

— w^-SfjW 

(3.36) 


S . t . ‘ 

rp 

w S m w = 1 . 


拉格朗日乘子法参见附 
录 B 丄 

由拉格朗日乘子法，上式等价于 




S b w 

= 入 , 

(3.37) 
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奇异值分解参见附录 
A .3. 


参见习题 7.5. 


其中 A 是拉格朗日乘子.注意到 S b w 的方向恒为 mo - Mi ， 不妨令 

SbW = A(/xo — Mi ) ? (3.38) 

代入式 (3.37) 即得 

w = S " 1 (go — //]_) • (3.39) 

考虑到数值解的稳定性，在实践中通常是对进行奇异值分解，即= 
USV T , 这里 S 是一个实对角矩阵，其对角线上的元素是的奇异值，然后 
再由 sy = VS-iuT 得到 S - 1 . 

值得一提的是， LDA 可从贝叶斯决策理论的角度来阐释，并可证明，当两 
类数据同先验、满足高斯分布且协方差相等时， LDA 可达到最优分类. 

可以将 LDA 推广到多分类任务中..假定存在 iV 个类，且第 i 类示例数为 
mi ， 我们先定义“全局散度矩阵” 


St = Sb + 




；3.40) 


i=l 


其中 / X 是所有示例的均值向量.将类内散度矩阵 Sw 重定义为每个类别的散度 
矩阵之和 ， gp 


N 




；3.41) 


K 巾 


1 =\ 

S 忉‘ = V : (尤— 叫 ) (X — 叫) 

x^：Xi 


T 


(3.42) 


由式( 3 . 4 0卜(3. 42 )可得 




N 


- fjt) T 


(3.43； 


i=l 


显然，多分类 LDA 可以有多种实现 方法： 使用 S 6 , S w ， Sf 三者中的任何两 
个即可.常见的一种实现是采用优化目标 




3.5 多分类学习 
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降维参见第10章. 


例如上一节最后介绍的 

LDA 推广. 


通常称分类学习器为 
“分类器” ( classifier ). 


关于多个分类器的集成, 
参见第8章. 

OvR 亦称 OvA (One vs . 
All ), 但 OvA 这个说法不严 
格，因为不可能把“所有 
类”作为反类. 


亦可根据各分类器的预 
测置信度等信息进行集成， 
参见 8.4 节. 


tr (W t S 6 W) / 、 

n^x 址 （ 'yyTg~'^V ) ， (3.44) 

其中 W e R dx ^- ' tr ㈠ 表示矩阵的迹 (trace). 式 (3.44) 可通过如下广义特征 
值问题求解： 

S b W = AS w W . (3.45) 

W 的闭式解则是 S ^ St 的 TV — 1个最大广义特征值所对应的特征向量组成的 
矩阵. 

若将 AV 视为一个投影矩阵，则多分类 LDA 将样本投影到 iV - 1 维空间, 
TV - 1通常远小于数据原有的属性数.于是，可通过这个投影来减小样本点的 
维数，且投影过程中使用了类别信息，因此 LDA 也常被视为一种经典的监督降 
维技术. 


3.5 多分类学习 

现实中常遇到多分类学习任务.有些二分类学习方法可直接推广到多分类, 
但在更多情形下，我们是基于一些基本策略，利用二分类学习器来解决多分类 
问题 • 

不失一般性，考虑 iV 个类别多分类学习的基本思路是 
“拆解法”，即将多分类任务拆为若干个二分类任务求解.具体来说，先对问题 
进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分 
类器的预测结果进行集成以获得最终的多分类结果.这里的关键是如何对多分 
类任务进行拆分，以及如何对多个分类器进行集成.本节主要介绍拆分策略. 

最经典的拆分策略有三种：“一对一” (One vs . One ， 简称 OvO )、 “ 一 对 
其余” (One vs . Rest , 简称 OvR ) 和“多对多 ” （Many vs . Many , 简称 MvM ). 

给定数据集 D yi e C N }. 

OvO 将这 TV 个类别两两配对，从而产生 N[N— 1)/2 个二分类任务，例如 OvO 
将为区分类别 G 和&训练一个分类器，该分类器把 D 中的 Q 类样例作为正 
例， G 类样例作为反例.在测试阶段，新样本将同时提交给所有分类器，于是我 
们将得到 N(N- 1)/2 个分类结果,最终结果可通过投票 产生： 即把被预测得最 
多的类别作为最终分类结果.图 3.4 给出了一个示意图. 

OvR 则是每次将一个类的样例作为正例、所有其他类的样例作为反例来 
训练 iV 个分类器.在测试时若仅有一个分类器预测为正类，则对应的类别标记 
作为最终分类结果，如图 3.4 所示.若有多个分类器预测为正类，则通常考虑各 
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图 3.4 OvO 与 OvR 示意图 


分类器的预测置信度,选择置信度最大的类别标记作为分类结果. 

容易看出， OvR 只需训练 iV 个分类器，而 OvO 需训练 N { N - 1)/2 个分 
类器，因此， OvO 的存储开销和测试时间开销通常比 OvR 更大.但在训练时, 
OvR 的每个分类器均使用全部训练样例，而 OvO 的每个分类器仅用到两个类 
的样例，因此，在类别很多时， OvO 的训练时间开销通常比 OvR 更小.至于预 
测性能，则取决于具体的数据分布，在多数情形下两者差不多. 

MvMS _ 次将若干个类作为正类，若干个其他类作为反类.显然， OvO 和 
OvR 是 MvM 的特例. MvM 的正、反类构造必须有特殊的设计，不能随意选 
取.这里我们介绍一种最常用的 MvM 技术:“纠错输出码 ” （Error Correcting 
Output Codes , 简称 ECOC ). 

ECOC [Dietterich and Bakiri , 1995] 是将编码的思想引入类别拆分，并尽 
可能在解码过程中具有容错性. ECOC 工作过程主要分为 两步: 


• 编码： 对 iV 个类别做 M 次划分，每次划分将一部分类别划为正类，一部 
分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集，可 
训练出 M 个分类器. 

• 解码： M 个分类器分别对测试样本进行预测，这些预测标记组成一个编 
码.将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小 
的类别作为最终预测结果. 
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类别划分通过“编码矩阵 ” （coding matrix ) 指定.编码矩阵有多种形式， 
常见的主要有二元码 [Dietterich and Bakiri , 1995] 和三元码 [Allwein et al ., 
2000]. 前者将每个类别分别指定为正类和反类，后者在正、反类之外，还可指 
定“停用类”.图 3.5 给出了一个示意图，在图 3.5 ⑷中，分类器/ 2 将 Q 类和 
C 3 类的样例作为正例，类和类的样例作为反例；在图 3.5( b ) 中，分类器 
/ 4 将 Ci 类和 C 4 类的样例作为正例， C 3 类的样例作为反例.在解码阶段，各分 
类器的预测结果联合起来形成了测试示例的编码，该编码与各类所对应的编码 
进行 比较， 将距离最小的编码所对应的类别作为预测结果.例如在图 3.5( a ) 中 5 
若基于欧氏距离，预测结果将是 C 3 . 


h h h / 4 h 


C x 

C 2 

C 3 

C 4 

测试 

示例 



欧氏 
距离 

丄 - i - 

—> 3 2a/3 C \ —> 

4 4 C2 — ^ 

1 2 C3 -^ 

2 2y/2 C4 —> 

个 个 测试 、 

示例 


/1 h h h h h Si SI SJ 



⑻二元 ECOC 码 


(b) 三元 ECOC 码 


图 3.5 ECOC 编码示意图.“+1”、 “-1” 分别表示学习器 A 将该类样本作为 

正、 反例； 三元码中‘ 4 0” 表示力不使用该类样本 


为什么称为“纠错输出码”呢？这是因为在测试阶段， ECOC 编码对分类 
器的错误有一定的容忍和修正能力.例如图 3.5( a ) 中对测试示例的正确预测编 
码是1，+1，+1， - 1，+1)，假设在预测时某个分类器出错了，例如/2出错从而 
导致了错误编码（-1，_1，+1，_1，+1)，但基于这个编码仍能产生正确的最终分 
类结果 C 3 . —般来说，对同一个学习 任务， ECOC 编码越长，纠错能力越强.然 
而，编码越长，意味着所需训练的分类器越多，计算、存储开销都会增大；另一 
方面，对有限类别数，可能的组合数目是有限的，码长超过一定范围后就失去了 
意义. 

对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠 
错能力越强.因此，在码长较小时可根据这个原则计算出理论最优编码.然而， 
码长稍大一些就难以有效地确定最优编码，事实上这是 NP 难问题.不过,通常 
我们并不需获得理论最优编码，因为非最优编码在实践中往往已能产生足够好 
的分类器.另一方面，并不是编码的理论性质越好，分类性能就越好，因为机器 
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对 OvR 、 MvM 来说，由 
于对每个类进行了相同的 
处理，其拆解出的二分类 
任务中类别不平衡的影响 
会相互抵消，因此通常不 
需专门处理. 


无偏采样意味着真实样 
本总体的类别比例在训练 
集中得以保持. 


学习问题涉及很多因素，例如将多个类拆解为两个“类别子 集”， 不同拆解方 
式所形成的两个类别子集的区分难度往往不同，即其导致的二分类问题的难度 
不同； 于是，一个理论纠错性质很好、但导致的二分类问题较难的编码，与另一 
个理论纠错性质差一些、但导致的二分类问题较简单的编码，最终产生的模型 
性能孰强孰弱很难说. 


3.6 类别不平衡问题 

前面介绍的分类学习方法都有一个共同的基本假设，即不同类别的训练样 
例数目相当.如果不同类别的训练样例数目稍有差别，通常影响不大，但若差别 
很大，则会对学习过程造成困扰.例如有998个反例，但正例只有2个，那么学 
习方法只需返回一个永远将新样本预测为反例的学习器，就能达到99.8%的精 
度；然而这样的学习器往往没有价值，因为它不能预测出任何正例. 

类别不平衡 ( class - imbalance ) 就是指分类任务中不同类别的训练样例数 
目差别很大的情况.不失一般性，本节假定正类样例较少，反类样例较多. 
在现实的分类学习任务中，我们经常会遇到类别不平衡，例如在通过拆分 
法解决多分类问题时，即使原始问题中不同类别的训练样例数目相当，在使 
用 OvR 、 MvM 策略后产生的二分类任务仍可能出现类别不平衡现象，因此有 
必要了解类别不平衡性处理的基本方法. 

从线性分类器的角度讨论容易 理觯， 在我们用2/ = w T x + b 对新样本 ® 
进行分类时，事实上是在用预测出的?/值与一个阈值进行比较，例如通常在 
y> 0.5 时判别为正例，否则为反例 . 2 /实际上表达了正例的可能性，几率 
则反映了正例可能性与反例可能性之比值，阈值设置为 0.5 恰表明分类器认为 
真实正、反例可能性相同，即分类器决策规则为 

若+ > 1则预测为正例. (3.46) 

1 — 2 / 

然而，当训练集中正、反例的数目不同时，令 m + 表示正例数目， m - 表示 
反例数目，则观测几率是由于我们通常假设训练集是真实样本总体的无偏 
采样，因此观测几率就代表了真实几率.于是，只要分类器的预测几率高于观测 
几率就应判定为正例，即 

若+ > f 则预测为正例. (3.47) 

1 — y m — 
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亦称“再平衡” （ rebal ¬ 
ance ). 


欠采样亦称“下采样” 
( downsampling ), 过采样 
亦称“上采样” （ upsam - 
pling ). 


代价敏感学习研究非 
均等代价下的学习.参见 
2.3.4 节. 


参见第11章. 


但是，我们的分类器是基于式 (3.46) 进行决策，因此，需对其预测值进行调 
整，使其在基于式 (3,46) 决策时，实际是在执行式 (3.47). 要做到这一点很容易, 
只需令 


这就是类别不平衡学习的一个基本策略一“再缩放” （ rescaling ). 

再缩放的思想虽简单，但实际操作却并不平凡，主要因为“训练集是真实 
样本总体的无偏釆样”这个假设往往并不成立，也就是说，我们未必能有效 
地基于训练集观测几率来推断出真实几率.现有技术大体上有三类做 法：第 
一类是直接对训练集里的反类样例进行“欠采样” ( undersampling ), 即去除 
一些反例使得正、反例数目接近，然后再进行学习；第二类是对训练集里的 
正类样例进行“过采样” （ oversampling )， 即增加一些正例使得正、反例数目 
接近，然后再进行学习；第三类则是直接基于原始训练集进行学习，但在用 
训练好的分类器进行预测时，将式 (3.48) 嵌入到其决策过程中，称为“阈值移 
动” （ threshold - moving ) • 

欠采样法的时间开销通常远小于过采样法，因为前者丢弃了很多反例，使 
得分类器训练集远小于初始训练集，而过采样法增加了很多正例，其训练集 
大于初始训练集.需注意的是，过采样法不能简单地对初始正例样本进行重 
复 釆样， 否则会招致严重的过拟合；过采样法的代表性算法 SMOTE [Chawla 
etal .，2002] 是通过对训练集里的正例进行插值来产生额外的正例.另一方面， 
欠采样法若随机丢弃反例，可能丢失一些重要信息；欠采样法的代表性算法 
EasyEnsemble [Liu et al , 2009] 则是利用集成学习机制，将反例划分为若干个 
集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来 
看却不会丢失重要信息. 

值得一提的是，“再缩放”也是“代价敏感学习” （ cost-sensitive learn - 
ing ) 的基础.在代价敏感学习中将式 (3.48) 中的 m -/ m + 用 cost + / cost - 代替即 
可，其中 cost + 是将正例误分为反例的代价， cost — 是将反例误分为正例的代价. 

3.7 阅读材料 

“稀疏表示” (sparse representation ) 近年来很受关注，但即便对多元线性 
回归这样简单的模型，获得具有最优“稀疏性” （ sparsity ) 的解也并不容易.稀 
疏性问题本质上对应了 L 0 范数的优化，这在通常条件下是 NP 难问题 . LASSO 
[ Tibshirani , 1996] 通过 L : 范数来近似 L Q 范数，是求取稀疏解的重要技术. 





68 


第 3 章线性模型 


可以证明， OvO 和 OvR 都是 ECOC 的特例 [Allwein et al . ? 2000]. 人们以 
往希望设计通用的编码法 ， [Crammer and Singer , 2002] 提出要考虑问题本身 
的特点，设计“问题依赖”的编码法，并证明寻找最优的离散编码矩阵是一个 
NP 完全问题.此后，有多种问题依赖的 ECOC 编码法被提出，通常是通过找 
出具有代表性的二分类问题来进行编码 [Pujol et al ., 2006, 2008]. [Escalera et 
al .，2010] 开发了一个开源 ECOC 库. 

MvM 除了 ECOC 还可有其他实现方式，例如 DAG (Directed Acyclic 
Graph ) 拆分法 [Platt et al ., 2000] 将类别划分表达成树形结构，每个结点对应 
于一个二类分类器.还有一些工作是致力于直接求解多分类问题，例如多类支 
持向量机方面的一些研究 [Crammer and Singer , 2001; Lee et al , 2004]. 

代价敏感学习中研究得最多的是基于类别的“误分类代 
价” (misclassification cost ), 代价矩阵如表 2.2 所示；本书在提及代价敏感 
学习时，默认指此类情形.已经证明，对二分类任务可通过“再缩放”获得理论 
最优解 [ Elkan , 2001], 但对多分类任务，仅在某些特殊情形下存在闭式解 [Zhou 
and Liu , 2006 a ]. 非均等代价和类别不平衡性虽然都可借助“再缩放”技术， 
但两者本质不同 [Zhou and Liu , 2006 b ]. 需注意的是，类别不平衡学习中通常 
是较小类的代价更高,否则无需进行特殊处理. 

多分类学习中虽然有多个类别，但每个样本仅属于一个类别.如果希望为 
一个样本同时预测出多个类别标记，例如一幅图像可同时标注为“蓝天”、 
“白云”、“羊群”、“自然场 景”， 这样的任务就不再是多分类学习，而是 
“多标记学习” （ multi-label learning )， 这是机器学习中近年来相当活跃的一个 
研究领域.对多标记学习感兴趣的读者可参阅 [Zhang and Zhou , 2014]. 
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习题 



3.1 

试析在什么情形下式 (3.2) 中不必考虑偏置项 6. 


3.2 

试证明，对于参数祕，对率回归的目标函数 (3.18) 是非凸的，但其对数 
似然函数 (3.27) 是凸的. 

西瓜数据集 3.0 a 见 p .89 
的表 4.5. 

3.3 

编程实现对率回归，并给出西瓜数据集 3.0 a 上的结果. 

UCI 数 据集见 

http :// archive . ics . uci . edu / ml /. 

3.4 

选择两个 UCI 数据集，比较10折交叉验证法和留一法所估计出的对 
率回归的错误率. 


3.5 

编程头现线性判别分析，并出西瓜数据集 3.0 a ； 上的结果. 

线性可分是指存在线性 
超平面能将不同类的样本 
点分开.参见 6.3 节. 

3.6 

线性判别分析仅在线性可分数据上能获得理想结果，试设计一个改进 
方法，使其能较好地用于非线性可分数据 


3.7 

令码长为9,类别数为4,试给出海明距离意义下理论最优的 ECOC 
二元码并证明之. ’ 


3.8* 

ECOC 编码能起到理想纠错作用的重要条 件是： 在每一位编码上出错 
的概率相当且独立.试析多分类任务经 ECOC 编码后产生的二类分 
类器满足该条件的可能性及由此产生的影响. 


3.9 

使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时,试述为何 
无需专门针对类别不平衡性进行处理. 


3.10* 

试推导出多分类代价敏感学习(仅考虑基于类别的误分类代价 M 吏用 


“再缩放”能获得理论最优解的条件. 
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另两位是拉格朗日和拉 
普拉斯，三人姓氏首字母 
相同，时称 “3 L ” . 


(1993 年版德国10马克纸币上的高斯像) 


小故事：关于“最小二乘法” 

1801年，意大利天文学家皮亚齐 
发现了 1号小行星“谷神星”，但在跟 
踪观测了 40天后，因谷神星转至太阳 
的背后，皮亚齐失去了谷神星的位置. 

许多天文学家试图重新找到谷神星，但 
都徒劳无获.这引起了伟大的德国数 

学家高斯 (1777—1855) 的注意，他发明了一种方法，根据皮亚齐的观测数据计 
算出了谷神星的轨道，后来德国天文学家奥伯斯在高斯预言的时间和星空领域 
重新找到了谷神星.1809年，高斯在他的著作《天体运动论》中发表了这种方 
法，即最小二乘法. 

1805年，在椭圆积分、数论和几何方面都有重大贡献的法国大数学家勒让 
德 （1752 — 1833) 发表了《计算彗星轨道的新方法》，其附录中描述了最小二乘 
法.勒让德是法国18 —19世纪数学界的三驾马车之一，早已是法国科学院院 
士.但勒让德的书中没有涉及最小二乘法的误差分析，高斯1809年的著作中包 
括了这方面的内容，这对最小二乘法用于数理统计、乃至今天的机器学习有极 
为重要的意义.由于高斯的这一重大贡献，以及他声称自己1799年就已开始使 
用这个方法，因此很多人将最小二乘法的发明优先权归之为高斯.当时这两位 
大数学家发生了著名的优先权之争，此后有许多数学史家专门进行研究，但至 
今也没弄清到底是谁最先发明了最小二乘法. 


休心 _ 23：儿 








亦称“判定树”.根据 
上下文，本书中的“决策 
树”有时是指学习方法， 
有时是指学得的树. 


第4章决策树 


41基本流程 

决策树 (decision tree ) 是一类常见的机器学习方法.以二分类任务为例，我 
们希望从给定训练数据集学得一个模型用以对新示例进行分类，这个把样本 
分类的任务，可看作对“当前样本属于正类吗?”这个问题的“决策”或“判 
定”过程.顾名思义，决策树是基于树结构来进行决策的，这恰是人类在面临决 
策问题时一种很自然的处理机制.例如，我们要对“这是好瓜吗?”这样的问题 
进行决策时，通常会进行一系列的判断或“子决 策”： 我们先看“它是什么颜 
色?”，如果是“青绿色”，则我们再看“它的根蒂是什么形态?”，如果是“蜷 
缩”，我们再判断“它敲起来是什么声音?”，最后，我们得出最终 决策： 这是个 
好瓜.这个决策过程如图 4.1 所示. 



图 4.1 西瓜问题的一棵决策树 

显然，决策过程的最终结论对应了我们所希望的判定结果，例如“是”或 
“不是” 好瓜； 决策过程中提出的每个判定问题都是对某个属性的“测试”， 
例如“色泽=?” “根蒂=?”；每个测试的结果或是导出最终结论，或是导出 
进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内 5 例如若在 
“色泽=青绿”之后再判断“根蒂=?”，则仅在考虑青绿色瓜的根蒂. 

一 般的， 一 棵决策树包含一个根结点、若干个内部结点和若干个叶结点; 
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叶结点对应于决策结果，其他每个结点则对应于一个属性 测试； 每个结点包含 
的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集.从 
根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是为 
了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简 
单且直观的“分而治之” （ divide - and - conquer ) 策略，如图 4.2 所示. 



递归返回，情形 (1). 

递归返回，情形 (2). 

我们将在下一节讨论如 
何获得最优划分属性. 

递归返回，情形 (3). 

从 A 中去掉 a *. 


输入：训练集 D = {(® i ,?/ i ), ( a ?2, y 2 )， …， ( x m , ym)h 
属性集 A = { a l5 ... ， 

过程：函数 TreeGenerate(D, A ) 

1 ： 生 成结点 node; 

2: if D 中样本全 M 于同一类别 C " then 
3: 将 node 标记为 (7 类叶结点 ； return 
4： end if 

5： if A = 0 OR D 中样本在 A 上取值相同 then 

6: 将 node 标记为叶结点，其类别标记为乃中样本数最多的类 ； return 

7: end if 

8:从 A 中选择最优划分属性 
9; for a * 的每一'个值 do 

10: 为 node 生成一个 分支； 令！^ 表示 D 中在~上取值为 < 的样本子集; 
11* if then 

12: 将~分支结点标记为叶结点，其类别标记为 D 中样本最多的类 ; return 

13: else 

14： 以 TreeGenerate(Z) t; , A \ {a*}) 为分支结点 

15: end if 
16: end for 

输出：以 node 为根结点的一棵决策树 


图 4.2 决策树学习基本算法 


显然，决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会 
导致递归返回： （1) 当前结点包含的样本全属于同一类别，无需划分； （2) 当前 
属性集为空，或是所有样本在所有属性上取值相同，无法划分； （3) 当前结点包 
含的样本集合为空，不能划分. 

在第 (2) 种情形下，我们把当前结点标记为叶结点，并将其类别设定为该结 
点所含样本最多的 类别； 在第 (3) 种情形下，同样把当前结点标记为叶结点，但 
将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不 
同：情形 (2) 是在利用当前结点的后验分布，而情形 (3) 则是把父结点的样本分布 
作为当前结点的先验分布. 




4.2 划分选择 


4.2 划分选择 
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计算信息熵时约 定：若 
p = 0，贝 1 j p log 2 p = 0 . 

Ent ( D ) 的最小值为 0, 
最大值为 log 2 |^|- 


ID 3 名字中的 ID 是 It ¬ 
erative Dichotomiser (迭代 
二分器)的简称. 


由算法 4.2 可看出，决策树学习的关键是第8行，即如何选择最优划分属 
性.一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样 
本尽可能属于同一类别，即结点的“纯度” （ purity ) 越来越高. 

4.2.1 信息增益 

“信息熵 ” （information entropy ) 是度量样本集合纯度最常用的一种指标. 
假定当前样本集合中第 A : 类样本所占的比例为 pfc ( A ; = 1,2，...，|； V |)， 则 D 
的信息熵定义为 

1^1 

Ent ( D ) = - ^ Pfe log 2 Pk • (4.1) 

k=l 


Ent ( D ) 的值越小，则 D 的纯度 越高. 

假定离散属性 a 有 F 个可能的取值 { a 1 , a 2 ,..., a v ), 若使用 a 来对样本集 
D 进行划分，则会产生 F 个分支结点，其中第 v 个分支结点包含了 D 中所有在 
属性 a 上取值为#的样本，记为乃' 我们可根据式 (4.1) 计算岀 ZF 的信息熵， 
再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 |^|/| D | 5 
即样本数越多的分支结点的影响越大，于是可计算出用属性 a 对样本集乃进行 
划分所获得的“信息增益” (information gain ) 




D v 


Gain ( D , a ) - Ent ^) - ^ ] - j ^- Ent ( D v ) 


(4.2) 


一般而言，信息增益越大，则意味着使用属性 a 来进行划分所获得的“纯 
度提升”越大.因此，我们可用信息增益来进行决策树的划分属性选择，即在图 
4.2 算法第8行选择属性 a * = argmaxGain ( D , a ) . 著名的 ID 3 决策树学习算 

a£A 

法 [ Quinlan , 1986] 就是以信息增益为准则来选择划分属性. 

以表 4.1 中的西瓜数据集 2.0 为例，该数据集包含17个训练样例，用以学 
习一棵能预测没剖开的是不是好瓜的决策树.显然，|^| = 2. 在决策树学习开 
始时，根结点包含乃中的所有样例，其中正例占扒=吾，反例占仍 =各.于 
是，根据式 (4.1) 可计算出根结点的信息熵为 

^ ' / 8 8 9 Q \ 

Ent(D) = log 2 p k = - f — log 2 — + ^ log 2 Yf ) = 0."8 • 

k=l \ . ’ 
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表 4.1 西瓜数据集 2.0 


编号 

色泽 

根蒂 

敲声 

纹理 

脐部 

触感 

好瓜 

1 

青绿 

蜷缩 

浊响 

清晰 

凹陷 

硬滑 

是 

2 

乌黑 

蜷缩 

沉闷 

清晰 

凹陷 

硬滑 

是 

3 

乌黑 

蜷缩 

浊响 

清晰 

凹陷 

硬滑 

是 


青绿 

蜷缩 

沉闷 

清晰 

凹陷 

硬滑 

是 

5 

浅白 

蜷缩 

浊响 

清晰 

凹陷 

硬滑 

是 

6 

青绿 

稍蜷 

浊响 

清晰 

稍凹 

软粘 

是 

7 

t?v\ 

稍蜷 

浊响 

稍糊^ 

稍凹 

软粘 

是 

- 8 

乌黑 

稍蜷 

浊响 

清晰 

稍凹 

硬滑 

是 

9 

乌黑 

稍蜷 

沉闷 

稍糊 

稍凹 

硬滑 

否 

10 

青绿 

硬挺 

清脆 

清晰 

平坦 

软粘 

否 

11 

浅白 

硬挺 

清脆 

模糊 

平坦 

硬滑 

否 

12 

浅白 

捲缩 

浊响 

模糊 

平坦 

软粘 

否 

13 

青绿 

稍蜷 

浊响 

稍糊 

凹陷 

硬滑 

否 

14 

浅白 

稍蜷 

沉闷 

稍糊 

凹陷 

硬滑 

否 

15 

良里 

- 7 ^ 

稍蜷 

浊响 

清晰 

稍凹 

软粘 

否 

16 

浅白. 

蜷缩 

浊响 

模糊 

平坦 

硬滑 

否 

17 

青绿 

蜷缩 

,沉闷 

稍糊 

稍凹 

硬滑 

否 


然后，我们要计算出当前属性集合 { 色泽，根蒂，敲声，纹理，脐部，触感 } 
中每个属性的信息增益.以属性“色泽”为例，它有3个可能的 取值： { 青绿，乌 
黑，浅白 }. 若使用该属 性对乃 进行划分，则可得到3个子集，分别记 为：乃 1 ( 色 
泽=青绿)， D 2 (色泽=乌黑 )， 乃 3 (色泽=浅白). 

子集 D 1 包含编号为 {1, 4, 6, 10, 13, 17} 的6个样例，其中正例占扒=暑, 
反例占仍= I; 乃 2 包含编号为{2, 3, 7, 8, 9, 15} 的6个样例，其中正、反例分 
别占 Pi = ^ P 2 = |； D 3 包含编号为{5, 11，12, 14, 16} 的5个样例，其中正、 
反例分别占扒 = IP 2 = I 根据式 (4.1) 可计算出用“色泽”划分之后所获得 
的3个分支结点的信息熵为 


Ent(,D 1 ) 

Ent(D 2 ) 

Ent(D 3 ) 


3 , 3 3 , 3 

6 l0g2 6 + 6 l0g2 6 

4 4 2 2 

— logo 7 ： "T logo ~ 
6 52 6 6 62 6 

. 14 4 

j lo §2 舌 + 吾 lo g2 ^ 


= 1.000 


= 0.918 


0.722 , 


于是,根据式 (4.2) 可计算出属性“色泽”的信息增益为 





4.2 划分选择 




“纹理” 
划分属性. 


Gainp , 色泽） = Ent ( D ) 


3 



D v 

~\D 


Ent ( D v ) 


0.998 - [ ^ x 1.000 + 羔 x 0.918 +x 0.722 
17 17 17 


0.109 


类似的，我们可计算出其他属性的信息增益： 

Gain ( D , 根蒂）= 0.143; Gainp , 敲声）= 0.141; 

Gain ( D ? 纹理）= 0.381; Gain(A 脐部）= 0.289; 

Gain ( D , 触感）= 0.006. 

显然，属性“纹理”的信息增益最大，于是它被选为划分属性.图 4.3 给出 
了基于“纹理”对根结点进行划分的结果，各分支结点所包含的样例子集显示 
在结点中. 



图 4.3 基于“纹理”属性对根结点划分 

然后，决策树学习算法将对每个分支结点做进一步划分.以图 4.3 中第一 
个分支结点 （ “纹理=清晰” ） 为例，该结点包含的样例集合 D 1 中有编号为{1， 
2, 3, 4, 5, 6, 8, 10, 15} 的9个样例，可用属性集合为 { 色泽，根蒂，敲声，脐部， 
触感 } .基于以计算出各属性的信息 增益： 

Gain ( Z ) 1 , 色泽）= 0.043; Gainp 1 ， 根蒂）= 0.458; 

Gain ^ 1 , 敲声）= 0.331; Gain ^ D 1 ， 脐部）= 0.458; 

Gain ( I ) 1 ， 触感 ）= 0.458. 

“根蒂”、“脐部”、“触感” 3个属性均取得了最大的信息增益，可任 
选其中之一作为划分属性.类似的，对每个分支结点进行上述操作，最终得到的 
决策树如图 4.4 所示. 

4.2.2 增率 

在上面的介绍中，我们有意忽略了表 4.1 中的“编号”这一列.若把“编 









图 4.4 在西瓜数据集 2.0 上基于信息增益生成的决策树 



号”也作为一个候选划分属性，则根据式 (4.2) 可计算出它的信息增益为0.998, 
远大于其他候选划分属性.这很容易理解：“编号”将产生17个分支，每个分 
支结点仅包含一个样本，这些分支结点的纯度已达最大.然而，这样的决策树显 
然不具有泛化能力，无法对新样本进行有效预测. 

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种 
偏好可能带来的不利影响，著名的 C 4.5 决策树算法 [ Quinlan , 1993] 不直接使 
用信息增益，而是使用“增益率” (gain ratio ) 来选择最优划分属性.釆用与 
式(4. 2 )相同的符号表示,增益率定义为 

Gain _ ratio ( D ， a ) 二 Gain (^ a ) (4.3) 

IV ( a ) 


『 嘗一 t . 

其中 

剛一 线 

V=1 1 

称为属性 a 的“固有值” (intrinsic value ) [ Quinlan , 1993]. 属性 a 的可能 
取值数目越多(即 F 越大)，则 IV(a) 的值通常会越大.例如，对表 4.1 的西 
瓜数据集 2.0, 有 IV (触感 ） = 0.874 (V = 2), IV (色泽）二 1.580 (V = 3), 
IV (编号 ）=4.088 (V = 17). 

需注意的是，增益率准则对可取值数目较少的属性有所偏好，因此， C 4.5 
算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式 













4.3 剪枝处理 
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CART 是 Classification 
and Regression Tree 的简 
称，这是一种著名的决策 
树学习算法，分类和回归 
任矣都可用. 


关于过拟合，参见 2.1 节. 


[ Quinlan , 1993]: 先从候选划分属性中找出信息增益高于平均水平的属性，再从 
中选择增益率最高的. ‘‘ 

4 2 3 基尼指数 

■ ■ • w zzizy / CL* J P) >入 

CART 决策树 [Breiman et al, 1984] 使用“基尼指数” (Gini index) 来选 
择划分属性.采用与式 (4.1) 相同的符号，数据集 D 的纯度可用基尼值来度量： 

1洌 

Gini ( D ) ^ p k Pk f 
k=l k f ^k 

=1 - ^Pk - ( 4 . 5 ) 

k=l 


• 直观来说， Gini ( D ) 反映了从数据集 D 中随机抽取两个样本，其类别标记 

不一致的概率.因此， Gim ( D ) 越小，则数据集乃的纯度越高. 

采用与式 (4.2) 相同的符号表示，属性 a 的基尼指数定义为 


v 


D v 


Gini_index(jD, a) = -j^-Gini(D v ] 


：1 


(4.6) 


于是，我们在候选属性集合 A 中，选择那个使得划分后基尼指数最小的属 
性作为最优划分属性，即 a* = argmin Gini_index(D, a ). 


4.3 剪枝处理 

剪枝 (pruning) 是决策树学习算法对付“过拟合”的主要手段.在决策树学 
习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决 
策树分支过多，这时就可能因训练样本学得“太好”了，以致于把训练集自身 
的一些特点当作所有数据都具有的一般性质而导致过拟合.因此，可通过主动 
去掉一些分支来降低过拟合的风险. 

决策树剪枝的基本策略有“预剪枝” (prepruning)fP “后剪枝” (post- 
pruning) [Quinlan, 1993]. 预剪枝是指在决策树生成过程中，对每个结点在划 
分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划 
分并将当前结点标记为叶 结点； 后剪枝则是先从训练集生成一棵完整的决策树， 
然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能 
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假定我们采用 4.2.1 节的信息增益准则来进行划分属性选择，则从表 4.2 的 
训练集将会生成一棵如图 4.5 所示的决策树.为便于讨论，我们对图中的部分 
结点做了编号. 

4.3.1 预剪枝 

我们先讨论预剪枝.基于信息增益准则，我们会选取属性“脐部”来对训 
练集进行划分，并产生3个分支，如图 4.6 所示.然而，是否应该进行这个划分 
呢？预剪枝要对划分前后的泛化性能进行估计. 

在划分之前，所有样例集中在根结点.若不进行划分，则根据算法 4.2 第6 
行，该结点将被标记为叶结点，其类别标记为训练样例数最多的类别，假设我们 


带来决策树泛化性能提升，则将该子树替换为叶结点. 

如何判断决策树泛化性能是否提升呢？这可使用 2.2 节介绍的性能评估 
方法.本节假定采用留出法，即预留一部分数据用作“验证集”以进行性 
能评估.例如对表 4.1 的西瓜数据集 2 . 0 , 我们将其随机划分为两部分，如 
表 4.2 所示，编号为{1，2,3,6,7,10,14,15,16, 17} 的样例组成训练集，编号为 
{4,5,8,9,11,12,13} 的样例组成验证集. 

表 4.2 西瓜数据集 2.0 划分出的训练集(双线上部)与验证集(双线下部） 
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当样例最多的类不唯一 
时，可任选其中一类. 



青^^ 乌白 ^ 蜷挺 

cm> cS£) 色 

清^\^糊 

Cm^) Cm^) 

图 4.5 基于表 4.2 生成的未剪枝决策树 



“色泽=?”划 分前： 71.4% “根蒂=?”划 分前： 71.4% 

划分后： 57. 1% 划分后： 71.4% 

预剪枝决策：禁止划分 预剪枝决策：禁止划分 

图 4.6 基于表 4.2 生成的预剪枝决策树 

将这个叶结点标记为“好瓜”.用表 4.2 的验证集对这个单结点决策树进行评 
估，则编号为 {4,5,8} 的样例被分类正确，另外4个样例分类错误，于是，验证 
集精度为 f x 100% - 42.9%. 

在用属性“脐部”划分之后， 图 4.6 中的结点② 、③、 ④分别包含编 
号为{1，2,3,14}、 {6,7,15,17}, {10, 1 6 }的训练样例，因此这3个结点分别 
被标记为叶结点“好瓜”、“好瓜”、“坏瓜”.此时，验证集中编号为 
{4,5,8,11,12} 的样例被分类正确，验证集精度为争 x 100% = 71.4% > 42.9%. 
于是，用“脐部”进行划分得以确定. 
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第 4 章决策树 


然后，决策树算法应该对结点②进行划分，基于信息增益准则将挑选出划 
分属性“色泽”.然而，在使用“色泽”划分后，编号为 {5} 的验证集样本分类 
结果会由正确转为错误，使得验证集精度下降为57.1%.于是,预剪枝策略将禁 
止结点②被划分. 

对结点③，最优划分属性为“根蒂”，划分后验证集精度仍为71.4%.这个 
划分不能提升验证集精度，于是，预剪枝策略禁止结点©被划分. 

对结点④，其所含训练样例已属于同一类，不再进行划分. 

于是，基于预剪枝策略从表 4.2 数据所生成的决策树如图 4.6 所示，其验证 
集精度为 H .4%. 这是一棵仅有一层划分的决策树,亦称“决策树粧” (decision 
stump ). 

对比图 4.6 和图 4.5 可看出，预剪枝使得决策树的很多分支都没有“展 
开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测 
试时间开销.但另一方面，有些分支的当前划分虽不能提升泛化性能、甚至可 
能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显 
著 提高; 预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了 
欠拟合的风险. 

> \ 

4.3.2 后剪枝 

后剪枝先从训练集生成一棵完整决策树，例如基于表 4.2 的数据我们得到 
如图 4.5 所示的决策树.易知，该决策树的验证集精度为42.9%. 

后剪枝首先考察图 4.5 中的结点⑥.若将其领衔的分支剪除，则相当于 
把©替换为叶结点.替换后的叶结点包含编号为 {7,15} 的训练样本，于是，该 
叶结点的类别标记为“好瓜”，此时决策树的验证集精度提髙至57.1%.于是， 
后剪枝策略决定剪枝，如图 4.7 所示. 


此种情形下验证集精度 
虽无提高，但根据奥卡姆 
剃刀准则，剪枝后的模型 
更好.因此，实际的决策树 
算法在此种情形下通常要 
进行剪枝.本书为綾图的 
方便，采取了不剪枝的保 
守策略. 


然后考察结点®，若将其领衔的子树替换为叶结点，则替换后的叶结点包 
含编号为 {6,7,15} 的训练样例，叶结点类别标记为“好瓜”，此时决策树验证 
集精度仍为57.1%.于是，可以不进行剪枝. 

对结点®,若将其领衔的子树替换为叶结点，则替换后的叶结点包含编号 
为 {1,2,3,14} 的训练样例，叶结点标记为“好瓜”.此时决策树的验证集精度 
提高至71.4%.于是，后剪枝策略决定剪枝. 


对结点 © 和①，若将其领衔的子树替换为叶结点，则所得决策树的验证集 
精度分别为71.4%与42.9%,均未得到提高.于是它们被保留. 
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原分支 


凹陷 


2U- 




稍蜷/ 


“色泽=?” 验证集精度 
剪枝前： 57. 1% 

剪枝后： 71.4% 青緣 
后剪枝决策：剪枝 


1脐部=? ’ 


稍凹 

[ 根蒂=?, 

/ 

mm " 





、硬挺 


[ 色 泽二？ 



乌黑白 



原分支“纹理=?”验证集精度 

剪枝前： 42. 9% 

剪枝后： 57. 1% 
后剪枝决策：剪枝 


图 4.7 基于表 4.2 生成的后剪枝决策树 

最终，基于后剪枝策略从表 4.2 数据所生成的决策树如图 4.7 所示，其验证 
集精度为71.4%. 

对比图 4.7 和图 4.6 可看出，后剪枝决策树通常比预剪枝决策树保留了更 
多的分支.一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预 
剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上 
地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树 
和预剪枝决策树都要大得多. 

4.4 连续与缺失值 
4.4.1 连续值处理 

到目前为止我们仅讨论了基于离散属性来生成决策树.现实学习任务中常 
会遇到连续属性，有必要讨论如何在决策树学习中使用连续属性. 

由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可 
取值来对结点进行划分.此时，连续属性离散化技术可派上用场.最简单的策 
略是采用二分法 ( bi - partition ) 对连续属性进行处理，这正是 C 4.5 决策树算法中 
釆用的机制 [ Quinlan , 1993]. 

给定样本集 D 和连续属性 a ， 假定 a 在 D 上出现了 n 个不同的取值，将这 
些值从小到大进行排序，记为 { a 1 , a 2 ,... , a n }. 基于划分点 t 可将 D 分为子集 
_ D t _ 和^^ ，其中包含那些在属性 a 上取值不大于 t 的样本，而 _ D t + 则包含 
那些在属性 a 上取值大于6的样本.显然，对相邻的属性取值^与 d +1 来说 ， t 





































在区间 [ a % a i +1 ) 中取任意值所产生的划分结果相同.因此,对连续属性 a ， 我们 
可考察包含 n -1个元素的候选划分点集合 


0.697 0.460 

0.774 0.376 

0.634 0.264 

0.608 0.318 

0.556 0.215 

0.403 0.237 

0.481 0.149 

0.437 0.211 


0.666 0.091 

0,243 0.267 

0.245 0.057 

0.343 0.099 

0.639 0.161 

0.657 0.198 

0.360 0.370 

0.593 0.042 

0.719 0.103 


a 2 + 


1 ^ ^ n 


(4.7) 


可将划分点设为该属性 
在训练集中出现的不大 
于中位点的最大值，从而 
使得最终决策树使用的划 
分点都在训练集中出现过 
[Quinlan, 1993]. 


即把区间 [ aSa ^ 1 ) 的中位点作为候选划分点.然后，我们就可像离散 
属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分.例如， 
可对式 (4.2) 稍加 改造： 


Gain ( D ， a ) = max Gain ( J D , a , t ) 

t & T a 


max Ent ( D ) 

t £ T a 


E 

ag {-,+} 



Ent ( D ^) 


(4.8) 


其中 Gain ( AM ) 是样本集 D 基于划分点尤二分后的信息增益.于是，我们就 
可选择使 Gain ( D , a , t ) 最大化的划分点. 

作为一个例子，我们在表 4.1 的西瓜数据集 2.0 上增加两个连续属性“密 
度”和“含糖率”，得到表 4.3 所示的西瓜数据集 3.0. 下面我们用这个数据集 
来生成一棵决策树. 

表 4.3 西瓜数据集 3.0 


编号色泽根蒂敲声纹理脐部触感 密度 含糖率好瓜 


滑滑滑滑滑粘粘滑 
硬硬硬硬硬软软硬 

陷陷陷陷陷凹凹凹 
凹凹凹凹凹稍稍稍 

析析析析析析胡析 

ffn OR ffnn np ^^1 DM 

清清清清清清稍清 

响闷响闷响响响响 

■3^ nJA n niA.3n4 

浊沉浊 ffl 浊浊浊浊 

缩缩缩缩缩蜷蜷蜷 
蜷蜷蜷蜷蜷稍稍稍 

绿黑黑绿白绿黑黑 
青乌乌青浅#乌乌 


12345678 


滑粘滑粘滑滑粘滑滑 
硬软硬软硬硬软硬硬 

凹坦坦坦陷陷凹坦凹 
稍 ¥-¥-¥- 凹 凹稍乎 稍 

' 

糊晰糊糊糊糊晰糊糊 
_ 清模模稍稍清横稍 

闷脆脆响响闷响响闷 
沉清清浊浊沉浊浊沉 

蜷挺挺缩蜷蜷蜷缩缩 
稍硬硬蜷稍稍稍蜷蜷 

黑绿白白绿白黑白绿 
乌青浅浅青浅乌浅青 


9012 3456 

1 rs==i 1—^ 



否否否否否否否否否 
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对属性“密度”，在决策树学习开始时，根结点包含的17个训练 
样本在该属性上取值均不同.根据式(4.7)，该属性的候选划分点集合 
包含 16个候选值: r 密度= {0.244, 0.294, 0.351， 0.381, 0.420, 0.459, 0.518, 
0.574, 0.600, 0.621，0.636, 0.648, 0.661, 0.681, 0.708, 0.746}. 由式 (4.8) 可计算 
出属性“密度”的信息增益为 0.262, 对应于划分点 0.381. 

对属性“含糖率”，其候选划分点集合也包含16个候 选值: = 
{0.049, 0.074, 0.095, 0.101，0.126, 0.155, 0.179, 0.204, 0.213, 0.226, 0.250, 0.265 
0.292, 0.344, 0.373, 0.418}. 类似的，根据式 (4.8) 可计算出其信息增益为0.349, 
对应于划分点 0.126. 

再由 4.2.1 节可知，表 4.3 的数据上各属性的信息增益为 


Gain ( D , 色泽) 

= 0.109; 

Gain ( D , 根蒂）= 

0.143; 

Gain ( D ， 敲声) 

= 0.141; 

Gain ( D , 纹理）= 

0.381; 

Gain ( D , 脐部) 

= 0.289; 

Gain ( D ， 触感）= 

0.006; 

Gain ( D ， 密度) 

- 0.262; 

Gain ( A 含糖率) 

= 0.349 


于是，“纹理”被选作根结点划分属性，此后结点划分过程递归进 
生成如图 4.8 所示的决策树. 


行，最终 



图 4.8 在西瓜数据集 3.0 上基于信息增益生成的决策树 


例如在父结点上使用了 
“密度 <0.381” ，不会禁 
止在子结点上使用“密 
度 <0.294” . 


需注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还 
可作为其后代结点的划分属性. 

4.4.2 缺失值处理 


现实任务中常会遇到不完整样本，即样本的某些属性值缺失.例如由于诊 
测成本、隐私保护等因素，患者的医疗数据在某些属性上的取值(如 HIV 测试 
结果)未知；尤其是在属性数目较多的情况下，往往会有大量样本出现缺失值. 
如果简单地放弃不完整样本，仅使用无缺失值的样本来进行学习，显然是对数 
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据信息极大的浪费.例如，表 4.4 是表 4.1 中的西瓜数据集 2.0 出现缺失值的版 
本，如果放弃不完整样本，则仅有编号{4, 7, 14, 16} 的4个样本能被使用.显 
然，有必要考虑利用有缺失属性值的训练样例来进行学习. 

表 4.4 西瓜数据集 2.0 a 


在决策树学习开始阶段, 
根结点中各样本的权重初 
始化为 1. 


我们需解决两个问题： （1) 如何在属性值缺失的情况下进行划分属性选择? 
(2) 给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？ 

给定训练集乃和属性 a , 令£>表示乃中在属性 a 上没有缺失值的样本子 
集.对问题(1)，显然我们仅可根据乃来判断属性 a 的优劣.假定属性 a 有 F 个 
可取值 { a 1 , a 2 ,... , a ，， 令，表示 D 中在属性 a 上取值为#的样本子集， At 
表示乃中属于第类 （A = 1,2, ... , |3；|) 的样本子集，则显然有乃 = Ul=i D k , 
d = uJLi 假定我们为每个样本 $ 赋予一个权重并定义 


"l2xeD 、 

^-^xED 

^2xef) v 






(4.9) 


(4.10) 


(4.H) 
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Ent (乃 2 ) 


4 4 2 L 

^ log 2 ^ ^ log 2 - 1 = 0.918 


直观地看，对属性 a ， p 表示无缺失值样本所占的比例，恥表示无缺失值样本中 
第 k 类所占的比例，^则表示无缺失值样本中在属性 a 上取值#的样本所占 
的比例.显然， = = 

基于上述定义，我们可将信息增益的计算式 (4.2) 推广为 


Gain (_ D ， a ) = p x Gain ( f ), a ) 


/ F 、 

p x Ent ㈤ —^ y v Ent [ p v 


(4.12: 


其中由式 (4.1), 


Ent(^) 






Pk l0g 2 Pk 

k=l 


对问题 (2)， 若样本 a 在划分属性 a 上的取值已知，则将 z 划入与其取值对 
的子结点，且样本权值在子结点中保持为若样本： c 在划分属性 (2 上的取 
:未知，则将^同时划入所有子结点，且样本权值在与属性值#对应的子结点 
中调整为 h 直观地看，这就是让同一个样本以不同的概率划入到不同的 

子结点中去. 

C 4.5 算法使用了上述解决方案 [ Quinlan , 1993]. 下面我们以表 4.4 的数据 
集为例来生成一棵决策树. 

在学习开始时，根结点包含样 本集乃 中全部17个样例，各样例的权值 

均为 1. 以属性“色泽”为例，该属性上无缺失值的样例子集乃包含编号为 

{2,3,4,6,7,8,9,10,11，12,14,15,16, 17} 的 14个样例.显然 ， D 的信息熵为 

2 

Ent(D) = -^Pk log 2 Pk 


k=l 


6 , 6 8 , 8 
14 l0g2 14 + 14 l0g2 14 


0.985 . 


令 D 1 ，3 2 与 £) 3 分别表示在属性“色泽”上取值为“青绿” “乌黑”以 
及“浅白”的样本子集，有 
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于是 5 样本集 D 上属性“色泽”的信息增益为 

~ 14 

Gain ( D , 色泽 ） =px Gain ( D , 色泽 ）= —x 0.306 = 0.252 . 

， 17 

类似地可计算出所有属性在 D 上的信息 增益： 

Gain ( D ， 色泽）= 0.252; Gain ( D ， 根蒂）= 0.171; 

Gain ( J D , 敲声）= 0.145; Gain ( D , 纹理）= 0.424; 

Gainp ， 脐部）= 0.289; Gain ( J 9 5 触感）= 0.006. 

“纹理”在所有属性中取得了最大的信息增益，被用于对根结点进行划分. 
划分结果是使编号为 {1,2,3,4,5,6,15} 的样本进入“纹理=清晰”分支，编号 
为{7,9,13,14, 17} 的样本进入“纹理=稍糊”分支，而编号为{11，12, 16} 的样 
本进入“纹理=模糊”分支，且样本在各子结点中的权重保持为 1. 需注意的 
是，编号为 {8} 的样本在属性“纹理”上出现了缺失值，因此它将同时进入三 
个分支中，但权重在三个子结点中分别调整为各、舍和舍.编号为 {10} 的样 
本有类似划分结果. 

上述结点划分过程递归执行， 最 终生成的决策树如图 4.9 所示. 


4.5 多变量决策树 

若我们把每个属性视为坐标空间中的一个坐标轴，则 d 个属性描述的样本 
就对应了 d 维空间中的一个数据点，对样本分类则意味着在这个坐标空间中寻 
找不同类样本之间的分类边界.决策树所形成的分类边界有一个明显的 特点: 
轴平行 ( a ^ is - parallel )， 即它的分类边界由若干个与坐标轴平行的分段组成. 
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1 

0.697 

0.460 

2 

0.774 

0.376 

3 

0.634 

0.264 

4 

0.608 

0.318 

5 

0.556 

0.215 

6 

0.403 

0.237 

7 

0.481 

0.149 

8 

0.437 

0.211 


9 

0.666 

0.091 

10 

0.243 

0.267 

11 

0.245 

0.057 

12 

0.343 

0.099 

13 

0.639 

0.161 

14 

0.657 

0.198 

15 

0.360 

0.370 

16 

0.593 

0.042 

17 

0.719 

0.103 


表 4.5 西瓜数据集 3.0 a 

编号 ~ Si 含糖率 ~~ mi 


西瓜数据集 3.0a 是由 
表 4.3 的西瓜数据集 3.0 忽 
略离散属性而得. 


显然，分类边界的每一段都是与坐标轴平行的.这样的分类边界使得学习 
结果有较好的可解释性，因为每一段划分都直接对应了某个属性取值.但在学 
习任务的真实分类边界比较复杂时，必须使用很多段划分才能获得较好的近似， 



图 4.9 在西瓜数据集 2.0 a 上基于信息增益生成的决策树 

以表 4.5 中的西瓜数据 3.0 a 为例，将它作为训练集可学得图 4.10 所示的决 
策树，这棵树所对应的分类边界如图 4.11 所示. 


日疋是是是是是是是否否否否否否否否否 
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图 4.10 在西瓜数据集 3,0 a 上生成的决策树 



密度 


图 4.11 图 4.10 决策树对应的分类边界 

如图 4.12 所示；此时的决策树会相当复杂，由于要进行大量的属性测试，预测 
时间开销会很大. 

若能使用斜的划分边界，如图 4.12 中红色线段所示，则决策树模型将大为 
简化.“多变量决策树 ” （multivariate decision tree ) 就是能实现这样的“斜划 
抖这1的 # 免” 鞋 H ㈣ 戈 U 側麟槪 M 鎌余斗戈扮 W 錢觀測細，■類 

称 钟 / 夭束柯 (oblique 

decision tree). 策树中，非叶结点不再是仅对某个属性，而是对属性的线性组合进彳丁测试；换言 

之，每个非叶结点是一个形如 Eti 奶叫 = t 的线性分类器，其中吻是属性叫 
的权重，购和 t 可在该结点所含的样本集和属性集上 学得. 于是,与传统的“单 
变量决策树” (univariate decision tree ) 不同，在多变量决策树的学习过程中， 
不是为每个非叶结点寻找一个最优划分属性，而是试图建立一个合适的线性分 
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线性分类器参见第3章. 



图 4.12 决策树对复杂分类边界的分段近似 


类器.例如对西瓜数据 3.0 c , 我们可学得图 4.13 这样的多变量决策树，其分类 
边界如图 4.14 所示. 



图 4.13 在西瓜数据集 3.0 a 上生成的多变量决策树 



图 4.14 图 4.13 多变量决策树对应的分类边界 
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4.6 阅读材料 

决策树学习算法最著名的代表是 ID 3 [ Quinlan , 1979, 1986], C 4.5 [ Quin ¬ 
lan , 1993] 和 CART [Breiman et al ., 1984]. [ Murthy , 1998] 提供了 一 个关于决 
策树文献的阅读指南. C 4.5 Rule 是一个将 C 4.5 决策树转化为符号规则的算法 
[ Quinlan , 1993], 决策树的每个分支可以容易地重写为一条规则，但 C 4.5 Rule 
算法在转化过程中会进行规则前件合并、删减等操作，因此最终规则集的泛化 
性能甚至可能优于原决策树. 


本质上，各种特征选择 
方法均可用于决策树的划 
分属性选择.特征选择参 
见第11章. 


在信息增益、增益率、基尼指数之外，人们还设计了许多其他的准则用 
于决策树划分选择，然而有实验研究表明 [ Mingers , 1989 b ], 这些准则虽然对 
决策树的尺寸有较大影响，但对泛化性能的影响很有限 . [Raileanu and Stoffel , 
2004] 对信息增益和基尼指数进行的理论分析也显示出，它们仅在2%的情况下 
会有所不同 . 4.3 节介绍了决策树剪枝的基本策略;剪枝方法和程度对决策树泛 
化性能的影响相当显著，有实验研究表明 [ Mingers , 1989 a ], 在数据策有噪声时 
通过剪枝甚至可将决策树的泛化性能提高25%. 


多变量决策树算法主要有 0 C 1 [Murthy et al , 1994] 和 [Brodley and Ut - 
goff , 1995] 提出的一系列算法. 0 C 1 先贪心地寻找每个属性的最优权值，在局 
部优化的基础上再对分类边界进行随机扰动以试图找到更好的边界 .；[Brodley 
. and Utgoff , 1995] 则直接引入了线性分类器学习的最小二乘法，还有一些算法 

试图在决策树的叶结点上嵌入神经网络，以结合这两种学习机制的优势，例如 
“感知机树” (Perceptron tree ) [ Utgoff , 1989 b ] 在决策树的每个叶结点上训练 
勢 J 感鍫机和神经网络， 一个感知机，而 [Guo and Gelfand , 1992] 则直接在叶结点上嵌入多层神经网络. 

参见弟5早. 

有一些决策树学习算法可进行“增量学习” （ incrementallearning ), 即在 
接收到新样本后可对已学得的模型进行调整，而不用完全重新学习.主要机 
制是通过调整分支路径上的划分属性次序来对树进行部分重构，代表性算法 
有 ID 4 [Schlimmer and Fisher , 1986]、 ID 5 R [ Utgoff , 1989 a]、ITI [Utgoff et al ., 
1997] 等.增量学习可有效地降低每次接收到新样本后的训练时间开销，但多步 
增量学习后的模型会与基于全部数据训练而得的模型有较大差别. 
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习题 

4.1 试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练 
集，必存在与训练集一致 ( S 卩训练误差为 0) 的决策树. 

4.2 试析使用“最小训练误差”作为决策树划分选择准则的缺陷. 

4.3 试编程实现基于信息熵进行划分选择的决策树算法，并为表 4.3 中数 
据生成一棵决策树. 

4.4 试编程实现基于基尼指数进行划分选择的决策树算法，为表 4.2 中数 
据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较. 

4.5 试编程实现基于对率回归进行划分选择的决策树算法，并为表 4.3 中 
数据生成一棵决策树. 

I 

UCI 数据集见 ' 

http :// archive . ics ； uci . edu / ml /. 4.6 试选择4个 UCI 数据集,对上述3种算法所产生的未剪枝、预剪枝、 

统计显著性检验参见 后剪枝决策树进行实验比较，并进行适当的统计显著性检验. 

2.4 节. 

4.7 图 4.2 是一个递归算法，若面临巨量数据， 则 决策树的层数会很深，使 

用递归方法易导致“栈”溢出.试使用“队列”数据结构，以参数 
淡控制树的最大深度，写出与图 4.2 等价、但不使用递归的 
决策树生成算法. 

4.8* 试将决策树生成的深度优先搜索过程修改为广度优先搜索，以参数 
MaxNode 控制树的最大结点数，将题 4.7 中基于队列的决策树算法 
进行改写.对比题 4.7 中的算法，试析哪种方式更易于控制决策树所 
需存储不超出内存. 

4.9 试将 4.4.2 节对缺失值的处理机制推广到基尼指数的计算中去. 


4.10 

西瓜数華■集 3.0 见 p .84 
的表 4.3. 


从网上下载或自己编程实现任意一种多变量决策树算法，并观察其在 
西瓜数据集 3.0 上产生的结果. 
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C 4.0 是 Classifier 4.0 的 

简称. 

C 4.5 在 WEKA 中的实 
现称为 J 4.8. 


Utgoff , P . E . (1989 b ). “Perceptron trees : A case study in hybrid concept rep - 
resenations .” Connection Science , 1(4):377-391. 

Utgoff , P . E ., N . C . Berkman , and J . A . Clouse . (1997). “Decision tree induction 
based on effcient tree restructuring .” Machine Learning , 29(1):5—44. 
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小故事：决策树与罗斯•昆兰 

说起决策树学习，就必然要谈到澳大利亚计算机科学家 
罗斯 • 昆兰 （ J . Ross Quinlan , 1943一 ）• 

最初的决策树算法是心理学家兼计算机科学家 E . B . 

Hunt 1962年在研究人类的概念学习过程时提出的 CLS 
(Concept Learning System ), 这个算法确立了决策树“分而 
治之”的学习策略. 罗斯. 昆兰在 Hunt 的指导下于1968年在美国华盛顿大学 
获得计算机博士学位，然后到悉尼大学任教.1978年他在学术假时到斯坦福大 
学访问，选修了图灵的助手 D . Michie 开设的一门研究生课程.课上有一个大 
作业，要求写程序来学习出完备正确的规则，以判断国际象棋残局中一方是否 
会在两步棋后被将死.昆兰写了 一个类似于 CLS 的程序来完成作业，其中最重 • 
要的改进是引入了信息增益准则.后来他把这个工作整理出来在1979年发表， 
这就是 ID 3 算法. 

1986年 Machine Learning 杂 志创干 ll ，昆兰应邀在创刊号上重新发表了 ID 3 
算法，掀起了决策树研究的热潮.短短几年间众多决策树算法问世， ID 4、 ID 5 
等名字迅速被其他研究者提出的算法占用，昆兰只好将自己的 ID 3 后继算法命 
名为 C 4.0, 在此基础上进一步提出了著名的 C 4.5. 有趣的是，昆兰自称 C 4.5 仅 
是对 C 4.0 做了些小改进，因此将它命名为“第 4.5 代分类器”，而将后续的商 
业化版本称为 C 5.0. 







第 5 章神经网络 


本书所谈的是“人工神 
经网络”，不是生物学意 
义上的神经网络. 


这是 T . Kohonen 1988 
年在 Neural / Veiwor/cs 创刊 
号上给出的定义. 


neuron unit . 


亦称 bias . 注意不是 
“阀值”，虽然其含义的 
确类似于“阀门”. 


5.1 神经元模型 

神经网络 (neural networks ) 方面的研究很早就已出现，今天“神经网络” 
已是一个相当大的、多学科交叉的学科领域.各相关学科对神经网络的定义多 
种多样，本书采用目前使用得最广泛的一种，即“神经网络是由具有适应性的 
简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实 
世界物体所作出的交互反应” [ Kohonen , 1988]. 我们在机器学习中谈论神经网 
络时指的是“神经网络学习”，或者说，是机器学习与神经网络这两个学科领 
域的交叉部分. 

神经网络中最基本的成分是神经元 ( neuron ) 模型，即上述定义中的“简单 
单元”.在生物神经网络中，每个神经元与其他神经元相连，当它“兴奋”时， 
就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神 
经元的电位超过了一个“阈值” ( threshold ), 那么它就会被激活，即“兴奋” 
起来，向其他神经元发送化学物质. 

1943 年， [McCulloch and Pitts , 1943] 将上述情形抽象为图 5.1 所示的简单 
模型，这就是一直沿用至今的 “ M-P 神经元模型”.在这个模型中，神经元接 
收到来自 n 个其他神经元传递过来的输入信号，这些输入信号通过带权重的连 
接 ( ccmnection ) 进行传递，神经元接收到的总输入值将与神经元的阈值进行比 


本书所谈的是“人工神 
经网络”，不是生物学意 
义上的神经网络. 


这是 T . Kohonen 1988 
年在 Neural / Veiwor/cs 创刊 
号上给出的定义. 


neuron unit . 


亦称 bias . 注意不是 
“阀值”，虽然其含义的 
确类似于“阀门”. 



图 5.1 M - P 神经元模型 
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亦称“响应函数”. 


这里的阶跃函数是单位 
阶跃函数的 变体； 对数几 
率函数则是 Sigmoid 函数 
的典型代表.参见 3.3 节. 


“模拟生物神经网络” 
是认知科学家对神经网络 
所做的一个类比阐释. 

例如10个神经元两两 
连接，则有100个参数： 90 
个连接权和10个阈值. 


较，然后通过“激活函数 ” （activation function ) 处理以产生神经元的输出. 

理想中的激活函数是图 5.2( a ) 所示的阶跃函数，它将输入值映射为输出 
值 “0” 或“1”，显然“1”对应于神经元兴奋，“0” 对应于神经元抑制.然 
而，阶跃函数具有不连续、不光滑等不太好的性质，因此实际常用 Sigmoid 
函数作为激活函数.典型的 Sigmoid 函数如图 5.2( b ) 所示，它把可能在较大 
范围内变化的输入值挤压到（0，1)输出值范围内，因此有时也称为“挤压函 
数” (squashing function ). 



( a ) 阶跃函数 （ b ) Sigmoid 函数 


图 5.2 典型的神经元激活函数 

把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络. 

事实上，从计算机科学的角度看，我们可以先不考虑神经网络是否真的模 
拟了生物神经网络，只需将一个神经网络视为包含了许多参数的数学模型，这 
个模型是若干个函数，例如妁 = 相互(嵌套)代入而得.有效的 

神经网络学习算法大多以数学证明为支撑. 

5.2 感知机与多层网络 

感知机 ( Perceptron ) 由两层神经元组成，如图 5.3 所示，输入层接收外 
界输入信号后传递给输出层，输出层是 M - P 神经元，亦称“阈值逻辑单 
元” (threshold logic unit ). 

感知机能容易地实现逻辑与 、或、 非运算.注意到= /(& 邶而-吖假 
定/是图 5.2 中的阶跃函数，有 

• “与”（別八 X 2 )： 令切 ；L = 初2 == 1, 沒 二2, 则 y = /(I . 別 + 1 . 抑 — 2)，仅 























5.2 感知机与多层网络 


而是 5 C 对应于第 i 个输 
入神经元的分量. 


77 通常设置为一个小正 
数，例如 0 . 1 . 


“非线性可分”意味着 
用线性超平面无法划分. 



输出层 


输入层 


图 5.3 两个输入神经元的感知机网络结构示意图 
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在 ： Ti = 奶 =1 时 ， y = 1] 

• “或” (: Ti V X 2 )： 令仿 1 =切 2 = 1 ， 汐= 0.5,贝 |J y = /(I • XI + 1 • X2 — 0.5)， 
当 : Cl = 1 或 X 2 = 1 时 ， y = 1; 

• (— 1 ^ 1 ): 令 = —0.6, W2 = 0 ^ 0 = —0.5, 贝 (J 2 / = / (—0.6 . 別 + 0 . 
X 2 + 0.5), 当: Ti = 1 时 ， y = 0; 当; ri = 0时 ， y = 1 . 

更一般地，给定训练数据集， 权重购 （i = 1，2, ... ， n ) 以及阈值0可通过学 
习得到.阈值6> 可看作一个固定输入为 —1.0 的“哑结点” (dummy node ) 所对 
应的连接权重 w n + ll 这样，权重和阈值的学习就可统一为权重的学习.感知机 
学习规则非常简单，对训练样例 ( x , y ), 若当前感知机的输 出为仏 则感知机权 
重将这样调整： 

Wi ^ r - Wi ^- Awi , (5.1) 

Awi = rj(y - y)xt , (5.2) 

其中 77 6 (0,1) 称为学习率 (learning rate ). 从式 (5.1) 可看出，若感知机对训练 
样例 ( x , y ) 预测正确，即$ = y ， 则感知机不发生变化，否则将根据错误的程度 
进行权重调整. 

需注意的是，感知机只有输出层神经元进行激活函数处理，即只拥有一层 
功能神经元 (functional neuron ), 其学习能力非常 有限. 事实上，上述与、或、 
非问题都是线性可分 (linearly separable ) 的问题.可以证明 [Minsky and Papert , 
1969], 若两类模式是线性可分的，即存在一个线性超平面能将它们分开，如图 
5.4( a )-( c ) 所示，则感知机的学习过程一定会收敛 ( converge ) 而求得适当的权向 
量切= ( wi ； w 2 ]... 否则感知机学习过程将会发生振荡 ( fluctuation )， it ; 

难以稳定下来，不能求得合适解，例如感知机甚至不能解决如图 5.4( d ) 所示的 
异或这样简单的非线性可分问题. 
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图 5.4 线性可分的“与” “或” “非”问题与非线性可分的“异或”问题 


要解决非线性可分问题，需考虑使用多 M 功能神经兀.例如图 5.5 中这个 
简单的两层感知机就能解决异或问题.在图 5.5( a ) 中，输出 M 与输入层之间的一 
层神经元，被称为隐层或隐含层 (hidden layer ), 隐含层和输出层神经元都是拥 
有激活函数的功能神经元. 

更一般的，常见的神经网络是形如图 5.6 所示的层级结构，每层神经元与下 
一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接.这样的 
神经网络结构通常称为“多层前馈神经网络” （ multi-layer feedforward neural 




图 5.5 能解决异或问题的两层感知机 




































5.3 误差逆传播算法 


“前馈”并不意味着网 
络中信号不能向后传，而 
是指网络拓扑结构上不存 
在环或 回路; 参见 5 . 5.5 节. 


即神经元连接的权重. 


亦称“反向传播算法 


离散属性需先进行 处理: 
若属性值间存在“序”关 
系则可进行连 续化； 否则 
通常转化为 fc 维向量， / c 为 
属性值数.参见 3.2 节. 
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(a) 单隐层前馈网络 ( b ) 双隐层前馈网络 


图 5.6 多层前馈神经网络结构示意图 

networks ), 其中输入层神经元接收外界输入，隐层与输出层神经元对信号进行 
加工，最终结果由输出层神经元输出；换言之，输入层神经元仅是接受输入，不 
进行函数处理，隐层与输出层包含功能神经元.因此，图 5.6( a ) 通常被称为“两 
层网络”.为避免歧义，本书称其为“单隐层网络”.只需包含隐层，即可称 
为多层网络.神经网络的学习过程，就是根据训练数据来调整神经元之间的 
“连接权” (connection weight ) 以及每个功能神经元的 阈值； 换言之，神经网 
络“学”到的东西，蕴涵在连接权与阈值中， 

I— } o % 'L. / >4-* J-tiT- ^-4 - 

5.3 1 •天差 逆传 播算法 

多层网络的学习能力比单层感知机强得多.欲训练多层网络，式 (5.1) 的 
简单感知机学习规则显然不够了，需要更强大的学习算法.误差逆传播 (error 
BackPropagation , 简称 BP ) 算法就是其中最杰出的代表，它是迄今最成功的神 
经网络学习算法.现实任务中使用神经网络时，大多是在使用 BP 算法进行训 
练.值得指出的是， BP 算法不仅可用于多层前馈神经网络，还可用于其他类型 
的神经网络，例如训练递归神经网络 [ Pineda , 1987]. 但通常说 “BP 网络”时, 
一般是指用 BP 算法训练的多层前馈神经网络. 

下面我们来看看 BP 算法究竟是什么样.给定训练集 D = {{ xi , yi ), 
( x 2l 2/2), .. • , t/ m )}, Xi e Vi G M z 5 即输入示例由 d 个属性描述，输出 Z 

维实值向量.为便于讨论，图 5.7 给出了一个拥有 d 个输入神经元、 Z 个输出神 
经元、 g 个隐层神经元的多层前馈网络结构，其中输出层第 j 个神经元的阈值 
用％表示，隐层第 A 个神经元的阈值用1表示.输入层第 < 个神经元与隐层第 
h 个神经元之间的连接权为7^，隐层第/I个神经元与输出层第 j 个神经元之间 
的连接权为购记隐层第&个神经元接收到的输入为邮= EtiTO . 输出 
层第 j 个神经元接收到的输 入为内 = ELi 切 hjbh , 其中^为隐层第/ I 个神经 
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实际是对率函数，参见 
3.3 节. 


这里的1/2是为了后续 
求导的便利. 


梯度下降参见附录 B.4. 


输出层 


输入层 



隐层赢 . 


第 ./ 个输出神经元的输入 
q 

Pj = w ^ bh 

h=l 


►第个隐层神经元的输入 

d 




E 

2=1 


^ih^i 


图 5.7 BP 网络及算法中的变量符号 

元的输出 . 假设隐层和输出 U 神经元都使用图 5.2( b ) 中的 Sigmoid 函数. 
对训练例 ( x k , y k ), 假记神经网络的输出为& =故，访，...，#)，即 


讲 = fWj - °jh 

则网络在 ( Xk ， yk ) 上的均方误差为 

E k =\i：L. 




图 5.7 的网络中有 {d + l + l)q + l 个参数需 确定： 输入层到隐层的 dxq 
个权值、隐层到输出层的 g x Z 个权值、 g 个隐层神经元的阈值、 Z 个输出层神 
经元的阈值 . BP 是一个迭代学习算法，在迭代的每一轮中采用广义的感知机学 
习规则对参数进行更新估计，即与式 15.1) 类似，任意参数的更新估计式为 


v ^ v + Av . 



下面我们以图 5.7 中隐层到输出层的连接权为例来进行推导. 

BP 算法基于梯度下降 (gradient descent ) 策略，以目标的负梯度方向对参 
数进行调整.对式 (5.4) 的误差给定学习率％有 


Aw hj = -T] 


dE k 

dw hj 


(5.6) 
















5.3 误差逆传播算法 


103 


注意到先影响到第 
然后影响到 


个输出层神经元的输入值再影响到其输出值 


这就是“链式法则”. 


dE k dE k dy ) df 


dw hj dy ^ d /3 j dw hj ’ 


(5.7) 


根据色的定义，显然有 


dPj 


dw 


hj 


b h 


(5.8) 


图 5.2 中的 Sigmoid 函数有一个很好的性质: 




(5.9) 


于是根据式 (5.4) 和(5.3)，有 


9 j 


dE k 



dv ) 

Wj 


= — {yj — Vj)f f (l3j — 0j) 

二鎊 (1 一鎊 )(g 一 鎊)， 


(5.10) 


将式 (5.10) 和 (5.8) 代入式 (5.7), 再代入式(5.6)，就得到了 BP 算法中关于 


w hj 的更新公式 

类似可得 


-- 

— V 9 jbh • 

(5.H) 

A °j 二 

= —Wj ， 

(5.12) 

= 

= V^hXi 5 

(5.13) 

△7 h 二 

= 一卿， 

(5.14) 


式 (5.13) 和 (5.14) 中 


dEk dbh 
db h da h 


s^dE k dpj , _ 

' db h f {ah 7/l) 
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常设置为？7 = 0.1. 


停止条件与缓解 BP 过 
拟合的策略有关. 


= ^2^hj9jf\oi h -j h ) 

j=i 

l 

= b h (l - b h )^2 w hj 9 j - (5.15) 

j=i 

学习率 ry G (0 ? 1) 控制着算法每一轮迭代中的更新步长，若太大则容易振 
荡，太小则收敛速度又会过慢.有时为了做精细 调节， 可令式 (5.11) 与 (5.12) 使 
用式 (5.13) 与 (5.1 4 ) 使用 r / 2 , 两者未必相等. 

图 5.8 给出了 BP 算法的工作流程.对每个训练样例， BP 算法执行以下操 
作：先将输入示例提供给输入层神经元，然后逐层将信号前传，直到产生输出 
层的结果；然后计算输出层的误差(第 4-5 行)，再将误差逆向传播至隐层神经 
元(第6行),最后根据隐层神经元的误差来对连接权和阈值进行调整(第7行). 
该迭代过程循环进行，直到达到某些停止条件为止，例如训练误差已达到一个 
很小的值.图 5.9 给出了在2个属性、5个样本的西瓜数据上，随着训练轮数的 
增加，网络参数和分类边界的变化情况. 


输入 ： ymmD = {( x k , y k )}^ =1 ； 

学习率 r ?. 

过程： 

1：在(0，1)范围内随机初始化网络中所有连接权和阈值 
2: repeat 

3: for all ( Xk ’ Vk ) G D do 

4： 根据当前参数和式 (5.3) 计算当前样本的输出扒； 

5: 根据式 (5.10) 计算输出层神经元的梯度 项幻； 

6:-根据式 (5.15) 计算隐层神经元的梯度项以； 

7: 根据式 (5.11^(5.14) 更新连接权 w hj , v ih 与 阈值七 ， 

8： end for 
9: until 达到停止条件 

输出： 连接权与阈值确定的多层前馈神经网络 


图 5.8 误差逆传播算法 


需注意的是， BP 算法的目标是要最小化训练集 D 上的累积误差 

-1 rn 

E =- S " E k , (5.16) 

m k=l 

但我们上面介绍的“标准 BP 算法”每次仅针对一个训练样例更新连接权 
和 阈值， 也就是说，图 5.8 中算法的更新规则是基于单个的 Efc 推导而得.如 
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读取训练集一遍称为进 
行了 “一轮 ” （one round , 
亦称 one epoch ) 学习. 

标准 BP 算法和累积 BP 
算法的区别类似于随机梯 
度下降 (stochastic gradient 
descent , 简称 SGD ) 与标准 
梯度下降之间的区别. 


引入正则化策略的神经 
网络与第6章的 SVM 已 
非常相似. 


好 


不好 



根蒂 
: a ) 第25轮 



好 


不好 



( b ) 第50轮 


: c ) 第100 轮 


图 5.9 在2个属性、5个样本的西瓜数据上， BP 网络参数更新和分类边界的变化情况 


果类似地推导出基于累积误差最小化的更新规则，就得到了累积误差逆传 
播 (accumulated error backpropagation ) 算法.累积 BP 算法与标准 BP 算法都 
很常用.一般来说，标准 BP 算法每次更新只针对单个样例，参数更新得非常频 
繁，而且对不同样例进行更新的效果可能出现“抵消”现象.因此，为了达到同 
样的累积误差极小点，标准 BP 算法往往需进行更多次数的迭代.累积 BP 算法 
直接针对累积误差最小化，它在读取整个训练集乃一遍后才对参数进行更新, 
其参数更新的频率低得多.但在很多任务中，累积误差下降到一定程度之后，进 
一步下降会非常缓慢，这时标准 BP 往往会更快获得较好的解，尤其是在训练 
集 D 非常大时更明显. 

[Hornik et al ., 1989] 证明，只需一个包含足够多神经元的隐层，多层前馈网 
络就能以任意精度逼近任意复杂度的连续函数.然而，如何设置隐层神经元的 
个数仍是个未决问题，实际应用中通常靠“试错法” （ trial - by - error ) 调整. 

正是由于其强大的表示能力， BP 神经网络经常遭遇过拟合，其训练误差持 
续降低，但测试误差却可能上升.有两种策略常用来缓解 BP 网络的过拟合.第 
一种策略是“早停” (early stopping ): 将数据分成训练集和验证集，训练集用 
来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但 
验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值. 
第二种策略是“正则化” ( regularization ) [ Barron , 1991; Girosi et al ., 1995]， 其 
基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接 
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增加连接权与阈值平方 
和这一项后，训练过程将 
会偏好比较小的连接权 
和阈值，使网络输出更加 
“光滑” T 从而对过拟合 
有所缓解. 


这里的讨论对其他机器 
学习模型同样适用. 


感知机更新规则式 （5.1) 
和 BP 更新规则式 (5.11)- 
(5.14) 都是基于梯度下降. 


权与阈值的平方和.仍令极表示第&个训练样例上的误差，叫表示连接权和 
阈值,则误差目标函数 (5.16) 改变为 

五 = + (工 — 入） ， （5.17) 

m k=i i 

其中 A G (0 5 1) 用于对经验误差与网络复杂度这两项进行折中，常通过交叉验 
证法来估计. 


5.4 全局最小与局部极小 

若用五表示神经网络在训练集上的误差，则它显然是关于连接权和阈 
值0的函数.此时，神经网络的训练过程可看作一个参数寻优过程，即在参数空 
间中，寻找一组最优参数使得五最小. 

我们常会谈到两种“最 优”： “局部极小” (local minimum ) 和“全局最 
小 ” （global minimum ). 对切*和(9*，若存在 e > 0使得 

V (w;6) e {( w ;9) I \\(w]0) - 0*;<9*)|| 彡 e } ， 

都有丑(加;幻彡 成立，则 ( w *； e *) 为局部极 小解； 若对参数空间中的 
任意 — ; 6>)都有 E(w;0) ^ 五―*，6>*)，则 _*; (9*) 为全局最小解.直观地看，局 
部极小解是参数空间中的某个点，其邻域点的误差函数值均不小于该点的函数 
值；全局最小解则是指参数空间中所有点的误差函数值均不小于该点的误差函 
数值.两者对应的分别称为误差函数的局部极小值和全局最小值 

显然，参数空间内梯度为零的点，只要其误差函数值小于邻点的误差函数 
值，就是局部极小点；可能存在多个局部极小值，但却只会有一个全局最小值. 
也就是说，“全局最小” 一定是“局部极小”，反之则不成立.例如，图 5.10 中 
有两个局部极小，但只有其中之一是全局最小.显然，我们在参数寻优过程中是 
希望找到全局最小. 

基于梯度的搜索是使用最为广泛的参数寻优方法.在此类方法中，我们从 
某些初始解出发，迭代寻找最优参数值.每次迭代中，我们先计算误差函数在当 
前点的梯度，然后根据梯度确定搜索方向.例如，由于负梯度方向是函数值下降 
最快的方向，因此梯度下降法就是沿着负梯度方向搜索最优解.若误差函数在 
当前点的梯度为零，则已达到局部极小，更新量将为零，这意味着参数的迭代更 
新将在此停止.显然，如果误差函数仅有一个局部极小，那么此时找到的局部极 
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图 5.10 全局最小与局部极小 

小就是全局最小；然而，如果误差函数具有多个局部极小，则不能保证找到的解 
是全局最小.对后一种情形，我们称参数寻优陷入了局部极小，这显然不是我们 
所希望的. 

在现实任务中，人们常采用以下策略来试图“跳出”局部极小，从而进一 
步接近全局最小： 


但是也会造成“跳出 
全局最小. 


• 以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差 
最小的解作为最终参数.这相当于从多个不同的初始点开始搜索，这样就 
可能陷入不同的局部极小，从中进行选择有可能获得更接近全局最小的 
结果. 

• 使用“模拟退火” (simulated annealing ) 技术 [Aarts and Korst , 1989], 
模拟退火在每一■步都以一'定的概率接受比当前解更差的结果，从而有助 
于“跳出”局部极小.在每步迭代过程中，接受“次优解”的概率要随着 
时间的推移而逐渐降低，从而保证算法稳定. 

• 使用随机梯度下降.与标准梯度下降法精确计算梯度不同，随机梯度下降 
法在计算梯度时加入了随机因素.于是，即便陷入局部极小点，它计算出 
的梯度仍可能不为零，这样就有机会跳出局部极小继续搜索. 


此外，遗传算法 (genetic algorithms ) [ Goldberg , 1989] 也常用来训练神经网 
络以更好地逼近全局最小.需注意的是，上述用于跳出局部极小的技术大多是 
启发式，理论上尚缺乏保障. 
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理论上来说可使用多个 
隐层，但常见的 RBF 设置 
是单隐层. 


模式类可认为是某类别 
的“子类”. 


5.5 其他常见神经网络 

神经网络模型、算法繁多，本节不能详尽描述，只对特别常见的几种网络 
稍作简介. 

5.5.1 RBF 网络 

RBF (Radial Basis Function , 径向基函数)网络 [Broomhead and Lowe , 
1988] 是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函 
数，而输出层则是对隐层神经元输出的线性组合.假定输入为 d 维向量; r ， 输出 
为实值，则 RBF 网络可表示为 


( p ( x ) ~ y^^Wjp(x,Ci) ， (5.18) 

其中 g 为隐层神经元个数，^和^分别是第 i 个隐层神经元所对应的中心和权 
重， p ( x , Ci ) 是径向基函数，这是某种沿径向对称的标量函数，通常定义为样本 
* 到数据中心^之间欧氏距离的单调函数.常用的高斯径向基函数形如 

p ( x 1 Ci ) = e ~^ x ~ Ci ^ 2 . (5.19) 

[Park and Sandberg , 1991] 证明，具有足够多隐层神经元的 RBF 网络能以任意 
精度逼近任意连续 函数. 

通常采用两步过程来训练 RBF 网络： 第一步，确定神经元中心 Ci , 常用的 
方式包括随机采样、聚 类等； 第二步，利用 BP 算法等来确定参数吻和 ft . 

5.5.2 ART 网络 

竞争型学习 (competitive learning ) 是神经网络中一种常用的无监督学习 
策略，在使用该策略时，网络的输出神经元相互竞争，每一时刻仅有一个竞 
争获胜的神经元被激活，其他神经元的状态被抑制.这种机制亦称“胜者通 
吃” （ winner - take - all ) 原则. 

ART (Adaptive Resonance Theory , 自适应谐振理论)网络 [Carpenter and 
Grossberg , 1987] 是竞争型学习的重要代表.该网络由比较层、识别层、识别 
阈值和重置模块构成.其中， 比较层 负责接收输入样本，并将其传递给识别层神 
经元.识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增 
长以增加新的模式类. 

在接收到比较层的输入信号后，识别层神经元之间相互竞争以产生获胜神 
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这就是“胜者通吃”原 
则的体现. 


增量学习是指在学得模 
型后，再接收到训练样例 
时，仅需根据新样例对模 
型进行更新，不必重新训 
练整个模型，并且先前学 
得的有效信息不会被“冲 
掉”； 在线学习是指每获 
得一个新样本就进行一次 
模型更新.显然，在线学习 
是增量学习的特例，而增 
量学习可视为“批模式” 
( batch - mode ) 的在线学习. 


亦称“自组织特征映 
射” （ Self-Organizing Fea ¬ 
ture Map)、Kohonen 网络. 


经元.竞争的最简单方式是，计算输入向量与每个识别层神经元所对应的模式 
类的代表向量之间的距离，距离最小者胜.获胜神经元将向其他识别层神经元 
发送信号，抑制其激活.若输入向量与获胜神经元所对应的代表向量之间的相 
似度大于识别阈值，则当前输入样本将被归为该代表向量所属类别，同时，网络 
连接权将会更新，使得以后在接收到相似输入样本时该模式类会计算出更大的 
相似度，从而使该获胜神经元有更大可能获胜；若相似度不大于识别阈值，则重 
置模块将在识别层增设一个新的神经元，其代表向量就设置为当前输入向量. 

显然，识别阈值对 ART 网络的性能有重要影响.当识别阈值较高时，输入样 
本将会被分成比较多、比较精细的模式类，而如果识别阈值较低，则会产生比 
较少、比较粗略的模式类. 

ART 比较好地缓解了竞争型学习中的“可塑性-稳定性窘境” ( stability - 
plasticity dilemma ), 可塑性是指神经网络要有学习新知识的能力，而稳定性则 
是指神经网络在学习新知识时要保持对旧知识的记忆.这就使得 ART 网络具有 
一个很重要的优点：可进行增量学习 (incremental learning ) 或在线学习 (online 
learning ). 

早期的 ART 网络只能处理布尔型输入数据，此后 ART 发展成了一个算法 
族，包括能处理实值输入的 ART 2 网络、结合模糊处理的 FuzzyART 网络，以 
及可进行监督学习的 ARTMAP 网络等. 

S 0 M 网络 

SOM ( Self-Organizing Map , 自组织映射)网络 [ Kohonen , 1982] 是一种竞 
争学习型的无监督神经网络，它能将高维输入数据映射到低维空间(通常为二 
维;)，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点 
映射到网络输出层中的邻近神经兀 • 

如图 5.11 所示， SOM 网络中的输出层神经元以矩阵方式排列在二维空间 
中，每个神经元都拥有一个权向量，网络在接收输入向量后，将会确定输出层获 
胜神经元，它决定了该输入向量在低维空间中的位置. SOM 的训练目标就是为 
每个输出层神经元找到合适的权向量，以达到保持拓扑结构的目的. 

SOM 的训练过程很 简单： 在接收到一个训练样本后，每个输出层神经元会 
计算该样本与自身携带的权向量之间的距离，距离最近的神经元成为竞争获胜 
者，称为最佳匹配单元 (best matching unit ). 然后，最佳匹配单元及其邻近神经 
元的权向量将被调整，以使得这些权向量与当前输入样本的距离缩小.这个过 
程不断迭代，直至收敛. 




p 
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结构自适应神经网络亦 
称“构造性” ( construc - 
tive ) 神经网络. 

5.5.2 节介绍的 ART 网 
络由于隐层神经元数目可 
在训练过程中增长，因此 
也是一种结构自适应神经 
网络. 



图 5.11 S 0 M 网络结构 


5.5.4 级联相关网络 


一般的神经网络模型通常假定网络结构是事先固定的，训练的目的是利用 
训练样本来确定合适的连接权、阈值等参数.与此不同，结构自诂应网络则将 
网络结构也当作学习的目标 之一， 并希望能在训练过程中找到最符合数据特点 
的网络结构.级联相关 ( Cascade - Correlation ) 网络 [Fahlman and Lebiere , 1990] 
是结构自适应网络的重要代表. 




图 5.12 级联相关网络的训练过程.新的隐结点加 入时， 红色连接权通过最大化新结 
点的输出与网络误差之间的相关性来进行训练. 

级联相关网络有两个主要成分：“级联”和“相关”.级联是指建立层次 
连接的层级结构.在开始训练时，网络只有输入层和输出层，处于最小拓扑结 
构；随着训练的进行，如图 5.12 所示，新的隐层神经元逐渐加入，从而创建起层 
级结构.当新的隐层神经元加入时，其输入端连接权值是冻结固定的.相关是 
指通过最大化新神经元的输出与网络误差之间的相关性 ( correlation ) 来训练相 
关的参数. 

与一般的前馈神经网络相比，级联相关网络无需设置网络层数、隐层神经 
元数目，且训练速度较快，但其在数据较小时易陷入过拟合. 
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5.5.5 Elman 网络 
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亦称 “recursive neural 与前馈神经网络不同，“递归神经网络” (recurrent neural networks ) 允许 

tWOrkSJ， ' 网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号.这 

样的结构与信息反馈过程，使得网络在 t 时刻的输出状态不仅与 t 时刻的输入 
有关,还与 t — 1 时刻的网络状态有关，从而能处理与时间有关的动态变化. 

Elman 网络 [ Elman ，1990] 是最常用的递归神经网络之一，其结构如图 5.13 
所示，它的结构与多层前馈网络很相似，但隐层神经元的输出被反馈回来，与下 
一时刻输入层神经元提供的信号一起，作为隐层神经元在下一时刻的输入.隐 
层神经元通常釆用 Sigmoid 激活函数，而网络的训练则常通过推广的 BP 算法 
进行 [ Pineda , 1987]. 



5.5.6 Boltzmann 机 


图 5.13 Elman 网络结构 


神经网络中有一类模型是为网络状态定义一个“能量” ( energy ), 能量 • 
最小化时网络达到理想状态，而网络的训练就是在最小化这个能量函数. 
Boltzmann 机 [Ackley et al ., 1985] 就是一种“基于能量的模型” ( energy-based 

Bot ! an 5 n 1 i ( 1^4 l ， 腿 ㈣ ，常见结构如图 5 . 14 ⑷ 所示，其神经元分为两层：显层与 隐层. 显层用 
神经网络. 于表示数据的输入与输出，隐层则被理解为数据的内在表达. Boltzmann 机中 

的神经元都是布尔型的，即只能取0、1两种状态，状态1表示激活，状态0表 
示抑制.令向量 s G {0, l } n 表示 n 个神经元的状态，表示神经元 i 与 j 之间 
的连接权，氏表示神经元 f 的阈值，则状态向量 s 所对应的 Boltzmann 机能量 
定义为 

n—l n n 

E(s) = W ij S i S 3 ~Yl 0iSi ' ( 5 . 20 ) 

X J ! —1 名 — -1 


Boltzmann 分布亦称 
“平衡态” ( equilibrium ) 
或“平稳分布” （ station ¬ 
ary distribution ). 


若网络中的神经元以任意不依赖于输入值的顺序进行更新，则网络最终将 
达到 Boltzmann 分布，此时状态向量 s 出现的概率将仅由其能量与所有可能状 
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阈值的更新公式可类似 
获得 • 



( a ) Boltzmann 机 



图 5.14 Boltzmann 机与受限 Boltzmann 机 

态向量的能量确定： 

e ~E(s) 

P ⑷ = (5 - 21) 

Boltzmann 机的训练过程就是将每个训练样本视为一个状态向量，使 
其出现的概率尽可能大.标准的 Boltzmann 机是一个全连接图，训练网络的 
复杂度很高，这使其难以用于解决现实任务.现实中常采用受限 Boltzmann 
机 (Restricted Boltzmann Machine , 简称 RBM ). 如图 5.14( b ) 所示，受限 Boltz ¬ 
mann 机仅保留显层与隐层之间的连接，从而将 Boltzmann 机结构由完全图简 
化为二部图. 


受限 Boltzmann 机常用“对比散度 ” （Contrastive Divergence , 简称 
CD ) 算法 [ Hinton , 2010] 来进行训练.假定网络中有 d 个显层神经元和 g 
个隐层神经元，令 r 和 h 分别表示显层与隐层的状态向量，则由于同一层内不 


存在连接，有 

A 


P ( vjh ) : 

CL 

= P{ v i 1 ^ 1 ) ? 

i=l 

(5.22) 

P ( hjv ) = 

-- flPihjlv ). 

7 = 1 

(5.23) 


CD 算法对每个训练样本％先根据式 (5.23) 计算出隐层神经元状态的概率分布， 
然后根据这个概率分布采样得到/ I ;此后，类似地根据式 (5.22) 从&产生 V ，再 
JAv ’ 产生连接权的更新公式为 


Aw = 7] [vh T — v’h’ T ). 


( 5 . 24 ) 












5.6 深度学习 


关于学习器容量，参见 

第12章. 


大型深度学习模型中甚 
至有上百亿个参数. 


这里所说的“多隐层” 
是指三个以上 隐层； 深度 
学习模型通常有八九层甚 
至更多隐层. 
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5.6 深度学习 

理论上来说，参数越多的模型复杂度越高、“容量” （ capacity ) 越大，这意 
味着它能完成更复杂的学习任务.但一般情形下，复杂模型的训练效率低，易陷 
入过拟合，因此难以受到人们青睐.而随着云计算、大数据时代的到来，计算 
能力的大幅提高可缓解训练低效性，训练数据的大幅增加则可降低过拟合风险， 
因此，以“深度学习 ” （deep learning ) 为代表的复杂模型开始受到人们的关注. 

-典型的深度学习模型就是很深层的神经网络.显然，对神经网络模型，提高 
容量的一个简单办法是增加隐层的数目.隐层多了，相应的神经元连接权、阈 
值等参数就会更多.模型复杂度也可通过单纯增加隐层神经元的数目来实现， 
前面我们谈到过，单隐层的多层前馈网络已具有很强大的学习 能力； 但从增加 
模型复杂度的角度来看，增加隐层的数目显然比增加隐层神经元的数目更有效， 
因为增加隐层数不仅增加了拥有激活函数的神经元数目，还增加了激活函数嵌 
套的层数.然而，多隐层神经网络难以直接用经典算法(例如标准 BP 算法)进行 
训练，因为误差在多隐层内逆传播时，往往会“发散” （ diverge ) 而不能收敛到 
稳定状态. 

无监督逐层训练 (unsupervised layer-wise training ) 是多隐层网络训练的 
有效手段，其基本思想是每次训练一层隐结点，训练时将上一层隐结点的输 
出作为输入，而本层隐结点的输出作为下一层隐结点的输入，这称为“预训 
练” ( pre - training ); 在预训练全部完成后，再对整个网络进行“微调” ( fine - 
tuning ) 训练. 例如，在深度信念网络 (deep belief network , 简称 DBN ) [Hinton 
et al ., 2006] 中，每层都是一个受限 Boltzmann 机，即整个网络可视为若干个 
RBM 堆叠而得.在使用无监督逐层训练时，首先训练第一层，这是关于训练样 
本的 RBM 模型,可按标准的 RBM 训练; 然后，将第一层预训练好的隐结点视为 
第二层的输入结点，对第二层进行预训练；……各层预训练完成后，再利用 BP 
算法等对整个网络进行训练. 

事实上，“预训练+微调”的做法可视为将大量参数分组，对每组先找到局 
部看来比较好的设置，然后再基于这些局部较优的结果联合起来进行全局寻优. 
这样就在利用了模型大量参数所提供的自由度的同时,有效地节省了训练开销. 

另一种节省训练开销的策略是“权共享 ” （weight sharing ), 即让一组 
神经元使用相同的连接权.这个策略在卷积神经网络 (Convolutional Neural 
Network , 简称 CNN ) [LeCun and Bengio ，1995; LeCun et al ., 1998] 中发挥了 
重要作用.以 CNN 进行手写数字识别任务为例 [LeCun et al ., 1998], 如图 5.15 





114 


第 5 章神经网络 



图 5.15 卷积神经网络用于手写数字识别 [LeCun et al ., 1998] 


近来人们在使用 CNN 
时常将 Sigmoid 激活函数 
替换为修正线性函数 

if x < 0, 
otherwise , 

这样的神经元称为 Re - 
LU(Rectified Linear Unit ); 

此外，汇合层的操作常采 
用“最大”或“平均”， 
这更接近于集成学习中的 
一些操作，参见 8.4 节. 



所示，网络输入是一个 32 x 32 的手写数字图像，输出是其识别结果， CNN 复合 
多个“卷积层”和“采样层”对输入信号进行加工，然后在连接层实现与输出 
目标之间的映射.每个卷积层都仅含多个特征映射 (feature map ), 每个特征映 
射是一个由多个神经元构成的“平面”，通过一种卷积滤波器提取输入的一种 
特征.例如，图 5.15 中第一个卷积层由6个特征映射构成，每个特征映射是一 
个 28 x 28 的神经元阵列，其中每个神经元负责从 5 x 5 的区域通过卷积滤波器 
提取局部特征.采样层亦称为“汇合” （ pooling ) 层，其作用是基于局部相关性 
原理进行亚采样，从而在减少数据量的同时保留有用信息.例如图 5.15 中第一 
个采样层有6个 14 x 14 的特征映射，其中每个神经元与上一层中对应特征映 
射的 2 x 2 邻域相连，并据此计算输出.通过复合卷积层和采样层，图 5.15 中的 
CNN 将原始图像映射成120维特征向量，最后通过一个由84个神经元构成的 
连接层和输出层连接完成识别任务. CNN 可用 BP 算法进行训练，但在训练中， 
无论是卷积层还是采样层，其每一组神经元(即图 5.15 中的每个“平面” ） 都是 
用相同的连接权，从而大幅减少了需要训练的参数数目. 


我们可以从另一个角度来理解深度学习.无论是 DBN 还是 CNN , 其多隐 


层堆叠、每层对上一层的输出进行处理的机制，可看作是在对输入信号进行 
逐层加工，从而把初始的、与输出目标之间联系不太密切的输入表示，转化 


若将网络中前若千层处 
理都看作是在进行特征表 
示，只把最后一层处理看 
作是在进行“分类”，则 
分类使用的就是一个简单 
模型. 


成与输出目标联系更密切的表示，使得原来仅基于最后一层输出映射难以完 
成的任务成为可能.换言之，通过多层处理，逐渐将初始的“低层”特征表示 
转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任 
务.由此可将深度学习理解为进行“特征学习” (feature learning) 或“表示学 
习” (representation learning). 


以往在机器学习用于现实任务时，描述样本的特征通常需由人类专家来设 
计，这称为“特征工程” (feature engineering). 众所周知，特征的好坏对泛化性 































































5.7 阅读材料 


2012年前的名称是 
IEEE Transactions on Neu¬ 
ral Networks. 

近来 NIPS 更偏重于机 
器学习. 


LMS 亦称 Widrow-Hoff 

规则或5规则. 
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能有至关重要的影响，人类专家设计出好特征也并非 易事； 特征学习则通过机 
器学习技术自身来产生好特征，这使机器学习向“全自动数据分析”又前进了 


5.7 阅读材料 

[ Haykin , 1998] 是很好的神经网络教科书， [ Bishop , 1995] 则偏重于机器学 
习和模式识别.神经网络领域的主流学术期刊有 Neural Computation、Neural 
Networks > IEEE Transactions on Neural Networks and Learning Systems ; 
主要国际学术会议有国际神经信息处理系统会议 ( NIPS ) 和国际神经网络联合 
会议 ( IJCNN )， 区域性国际会议主要有欧洲神经网络会议 ( ICANN ) 和亚太神经 
网络会议 ( ICONIP ). 

M - P 神经元模型使用最为广泛，但还有一些神经元模型也受到关注，如考 
虑了电位脉冲发放时间而不仅是累积电位的脉冲神经元 (spiking neuron ) 模型 
[Gerstner and Kistler , 2002]. 

BP 算法由 [ Werbos , 1974] 首先提出，此后 [Rumelhart et al ., 1986 a , b ] 重新 
发明 . BP 算法实质是 LMS (Least Mean Square ) 算法的推广. LMS 试图使网 
络的输出均方误差最小化，可用于神经元激活函数可微的感知机 学习； 将 LMS 
推广到由非线性可微神经元组成的多层前馈网络，就得到 BP 算法，因此 BP 算 
法亦称广义 d 规则 [Chauvin and Rumelhart , 1995]. 

[ MacKay , 1992] 在贝叶斯框架下提出了自动确定神经网络正则化参数的 
方法 . [Gori and Tesi ，1992] 对 BP 网络的局部极小问题进行了详细讨论. [ Yao , 
1999] 综述了利用以遗传算法为代表的演化计算 (evolutionary computation ) 技 
术来生成神经网络的研究工作.对 BP 算法的改进有大量研究，例如为了提速， 
可在训练过程中自适应缩小学习率，即先使用较大的学习率然后逐步缩小，更 
多“寶门” ( trick ) 可参阅 [Reed and Marks , 1998; Orr and Muller , 1998]. 

关于 RBF 网络训练过程可参阅 [Schwenker et al ., 2001]. [Carpenter and 
Grossberg , 1991] 介绍了 ART 族算法. SOM 网络在聚类、高维数据可视化、 
图像分割等方面有广泛应用，可参阅 [ Kohonen , 2001]. [Bengio et al ., 2013] 综 
述了深度学习方面的研究进展. 

神经网络是一种难解释的“黑箱模型”，但已有一些工作尝试改善神经 
网络的可解释性，主要途径是从神经网络中抽取易于理解的符号规则，可参阅 
[Tickle et al ” 1998; Zhou , 2004]. 
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西瓜数据集 3.0 见 p .84 
的表 4.3. 


UCI 数据集见 

http :// archive . ics . uci . edu / ml /. 


西瓜数据集 3.0 o ： 见 p .89 
的表 4.5. 


MNIST 数据集见 
http :// yann . lecun . com / 
exdb / mnist /. 


5.1 试述将线性函数 f ( x ) = w T x 用作神经元激活函数的缺陷. 

5.2 试述使用图 5.2( b ) 激活函数的神经元与对率回归的联系. 

5.3 对于图 5.7 中的％&试推导出 BP 算法中的更新公式 (5.13). 

5.4 试述式 (5.6) 中学习率的取值对神经网络训练的影响. 

5.5 试编程实现标准 BP 算法和累积 BP 算法，在西瓜数据集 3.0 上分别 
用这两个算法训练一个单隐层网络，并进行比较. 

5.6 试设计一个 BP 改进算法，能通过动态调整学习率显著提升收敛速度. 

编程实现该算法，并选择两个 UCI 数据集与标准 BP 算法进行实验 

> 

比较 • 

5.7 根据式 (5.18) 和(5„19)，试构造一个能解决异或问题的单层 RBF 神经 
网络. 

5.8 从网上下载或自己编程实现 SOM 网络，并观察其在西瓜数据集 3.0 a 

上产生的结果. 、 

5.9* 试推导用于 Elman 网络的 BP 算法. 

5.10 从网上下载或自己编程实现一个卷积神经网络，并在手写字符识别数 

: - * , < 

据 MNIST 上进行实验测试. 
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休息一会儿 


闵斯基于1969年获图 
灵奖. 

此书中有不少关于神经 
网络的真知灼见，但其重 
要论断所导致的后果，对 
神经网络乃至人工智能整 
体的研究产生了极为残酷 
的影响，因此在神经网络 
重又兴起后，该书受到很 
多批判.1988年再版时, 
闵斯基专门增加了 一章以 
作辩护. 


Expanded Kdition 


ran i 


Perceptrons 


小故事：神经网络的几起几落 

二十世纪四十年代 M-P 神经元模型、 Hebb 学习律 
出现后，五十年代出现了以感知机、 Adaline 为代表的一 
系列成果，这是神经网络发展的第一个高潮期.不幸的 
是， MIT 计算机科学研究的奠基人马文 • 闵斯基 (Marvin 
Minsky , 1927 —）与 Seymour Papert 在 1969 年出版了 
《感知机》一书，书中指出，单层神经网络无法解决非线 
性问题，而多层网络的训练算法尚看不到希望.这个论断 
直接使神经网络研究进入了 “冰河期”，美国和苏联均停止了对神经网络研究 
的资助，全球该领域研究人员纷纷转行，仅剩极少数人坚持下来.哈佛大学的 
Paul Werbos 在 1974 年发明 BP 算法时，正值神经网络冰河期，因此未受到应 
有的重视. 


T L 


Mart in L. M§mky 
Seymour 九 Papert 


1983年，加州理工学院的物理学家 John Hopfield 利用神经网络，在旅行商 
问题这个 NP 完全问题的求解上获得当时最好结果，引起了轰动.稍后 ， UCSD 
的 David Rumelhart 与 James McClelland 领导的 PDP 小组出版了《并行分 
布处理：认知微结构的探索》一书， Rumelhart 等人重新发明了 BP 算法，由于 
当时正处于 Hopfield 带来的兴奋之中， BP 算法迅速走红.这掀起了神经网络 
的第二次高潮.二十世纪九十年代中期，随着统计学习理论和支持向量机的兴 
起，神经网络学习的理论性质不够清楚、试错性强、在使用中充斥大量“窍 
门” （ trick ) 的弱点更为明显，于是神经网络研究又进入低谷， NIPS 会议甚至多 
年不接受以神经网络为主题的论文. 


2010年前后，随着计算能力的迅猛提升和大数据的涌现，神经网络研究在 
“深度学习”的名义下又重新崛起，先是在 ImageNet 等若干竞赛上以大优势 
夺冠，此后谷歌、百度、脸书等公司纷纷投入巨资进行研发，神经网络迎来了 
第三次高潮. 
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6.1 间隔与支持向量 

给定训练样本集 D = {(® l ，2/ l )，0 c 2,2/2)”..，（® m ，2/ m)}U { — 1，+1} 5 分 
类学习最基本的想法就是基于训练集乃在样本空间中找到一个划分超平面，将 
不同类别的样本分开.但能将训练样本分开的划分超平面可能有很多，如图 6.1 
所示，我们应该努力去找到哪一个呢？ 



图 6.1 存在多个划分超平面将两类训练样本分开 


直观上看，应该去找位于两类训练样本“正中间”的划分超平面，即图 6.1 
中红色的那个，因为该划分超平面对训练样本局部扰动的“容忍”性最好.例 
如，由于训练集的局限性或噪声的因素，训练集外的样本可能比图 6.1 中的训练 
样本更接近两个类的分隔界，这将使许多划分超平面出现错误，而红色的超平 
面受影响最小.换言之，这个划分超平面所产生的分类结果是最鲁棒的，对未见 
示例的泛化能力最强. 

在样本空间中，划分超平面可通过如下线性方程来描述： 

w T x + 6 = 0, (6.1) 

其中 it ; = ( w 1 ; w 2 ；...] w d ) 为法向量，决定了超平面的方向； 6为位移项，决定 
了超平面与原点之间的距离.显然，划分超平面可被法向量 W 和位移6确定， 
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若超平面 ( w , , b f ) 能将 
训练样本正确分类，则总 
存在缩放变换4 it / 
和4 使式 (6.3) 成立. 


每个样本点对应一个特 
征向量. 


第6章支持向量机 


" F 面我们将其记为 ( w , b ). 样本空间中任意点 £ C 到超平面 ( w ^ b ) 的距离可写为 


w T x + b 


I 卜 I 


(6.2) 


假设超平面 ( w , b ) 能将训练样本正确分类，即对于 ( Xi ， yi ) e D , 若 yi 
+1，则有 w T Xi + 6 > 0;若队= — 1,则有 w T Xi + 6 < 0•令 


w T xi + & ^ +i 5 m = +1 


w T Xi + 6 ^- 1 , Vi = -1 


(6.3) 


如图 6.2 所示，距离超平面最近的这几个训练样本点使式 (6.3) 的等号成立， 
它们被称为“支持向量” (support vector ), 两个异类支持向量到超平面的距离 
之和为 

• 7= T^-n 5 (M 


w 


它被称为“间隔” （ margin ), 



0 

1 


欲找到具有“最大间隔 ” （maximum margin ) 的划分超平面，也就是要找 
到能满足式 (6.3) 中约束的参数 w 和\使得7最大，即 


2 


max 


6 IH| 

s . t . yi ( w T Xi + 6) > 1, i — 1,2,..., m . 


；6.5) 




6.2 对偶问题 
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间隔貌似仅与 w 有关, 
但事实上6通过约束隐式 
地影响着 ti ； 的取值，进而 
对间隔产生影响. 


参见附录 B . I . 


显然，为了最大化间隔，仅需最大化 n ^ ir 1 , 这等价于最小化 ii ^ ii 2 . 于是， 
式 (6.5) 可重写为 

min ^ ||切|| 2 (6.6) 

w,b 2 

s . t . yi ( w T Xi + 6) 彡 1， i ~ 1, 2,..., m . 

这就是支持向量机 (Support Vector Machine , 简称 SVM ) 的基本型. 

6.2 对偶问题 

我们希望求解式 (6.6) 来得到大间隔划分超平面所对应的模型 

f ( x ) — w T x + b , (6.7) 


其中 扣和 6是模型参数.注意到 式!; 6.6) 本身是个凸二次规划 (convex 
quadratic programming ) 问题，能直接用现成的优化计算包求解，但我们可 
以有更高效的办法. 

对式 (6.6) 使用拉格朗曰乘子法可得到其“对偶问题 ” （dual problem ). 具 
体来说，对式 (6.6) 的每条约束添加拉格朗日乘子％ > 0,则该问题的拉格朗日 
函数可写为 

1 m , 

L ( w , b , a ) = - \\ w \\ 2 + ^ o：z (1 - yi { w T Xi + b )) , (6.8) 

i=l 

其中 a = ( a 1; a 2; … ； a m ) .令 L ( w , 6, a ) 对切和 6 的偏导为零可得 

m 

W a iVi X i , ( 6 . 9 ) 

i=\ 

m 

0 = O^iVi - (6.10) 

i=l 

将式 (6.9) 代入 (6.8)， 即可将 L ( w , b , a ) 中的 it ? 和 6 消去，再考虑式 (6.10) 的约 
束，就得到式 (6.6) 的对偶问题 



m 1 m m 

J2 ai ~o 

%—L t=l J = 1 


( 6 . 11 ) 




124 


第 6 章支持向量机 
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如 [ Vapnik , 1999] 所述, 

支持向量机这个名字强调 
了此类学习器的关键是如 
何从支持向量构建 出解; 
同时也暗示着其复杂度主 
要与支持向量的数目有关. 

二次规划参见附录 B .2. 


S 


• t . 〉: Oii/yi 


oO 0 , 


1,2,…， m 


解出 a 后，求出切与6即可得到模型 


f ( x ) = w T x + b 


y^aiyjxjx + b 




( 6 . 12 ) 


从对偶问题 (6.11) 解出的 ％ 是式 (6.8) 中的拉格朗日乘子，它恰对应着训 
练样本注意到式 (6.6) 中有不等式约束，因此上述过程需满足 KKT 
( Karush - Kuhn - Tucker ) 条件，即要求 

ai ^ 0 ; 

< yif(Xi) — 1 彡0 ; (6.13) 

(yi/(®i) — 1) = 0 •‘ 

于是，对任意训练样本总有％ = 0或 yif ( xi ) = 1. 若 a ; = 0，则该样 
本将不会在式 (6.12) 的求和中出现，也就不会对 f ( x ) 有任何 影响； 若％ > 0, 
则必有队 /( A ) = 1,所对应的样本点位于最大间隔边界上，是一个支持向量. 
这显示出支持向量机的一个重要 性质: 训练完成后，大部分的训练样本都不需 
保留，最终模型仅与支持向量有关. 

那么，如何求解式 (6.11) 呢？不难发现，这是一个二次规划问题，可使用通 
用的二次规划算法来求解；然而，该问题的规模正比于训练样本数，这会在实际 
任务中造成很大的开销.为了避开这个障碍，人们通过利用问题本身的特性，提 
出了很多高效算法 ， SMO (Sequential Minimal Optimization ) 是其中一个著名 
的代表 [ Platt , 1998]. 

SMO 的基本思路是先固定％之外的所有参数，然后求上的极值.由于 
存在约束 YZi a iVi = ° 5 若固定％之外的其他变量，则％可由其他变量导出. 
于是， SMO 每次选择两个变量％ 和％， 并固定其他参数.这样，在参数初始化 
后， SMO 不断执行如下两个步骤直至 收敛： 

• 选取一对需更新的变量％和 



6.2 对偶问题 
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• 固定叫和以外的参数，求解式 (6.11) 获得更新后的0^和 Qfj . 

注意到只需选取的％和％中有一个不满足 KKT 条件(6.13)，目标函数就 
会在迭代后减小 [Osuna et al , 1997]. 直观来看， KKT 条件违背的程度越大，则 
变量更新后可能导致的目标函数值减幅越大.于是， SMO 先选取违背 KKT 条 
件程度最大的变量.第二个变量应选择一个使目标函数值减小最快的变量，但 
由于比较各变量所对应的目标函数值减幅的复杂度过高，因此 SMO 釆用了一 
个启发式：使选取的两变量所对应样本之间的间隔最大.一种直观的解释是，这 
样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对它们进行 
更新会带给目标函数值更大的变化. 

• SM 0 算法之所以高效，恰由于在固定其他参数后，仅优化两个参数的过程 
能做到非常高效.具体来说，仅考虑％和％•时，式 (6.11) 中的约束可重写为 


= C ，> 0 ， Qij. > 0 ， 


(6.14) 


其中 

c= -^2 akyk ( 6 . 15 ) 


是使 £ = 0 成立的常数.用 


oaVi + OijVj = c 


(6.16) 


消去式 (6.11) 中的变 量％， 则得到一个关于叫的单变量二次规划问题，仅有的 
约束是％ > 0. 不难发现，这样的二次规划问题具有闭式解，于是不必调用数值 
优化算法即可高效地计算出更新后的％和 

如何确定偏移项6呢？注意到对任意支持向量 ( x s , y s ) 都有 y s f ( x s ) = 1, 
即 



其中5 = {i | ai > 0, i 为所有支持向量的下标集.理论上，可选 

取任意支持向量并通过求解式 (6.17) 获得6,但现实任务中常采用一种更鲁棒的 
做法： 使用所有支持向量求解的平均值 


S 



ies 


X, 


(6.18) 
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6.3 核函数 

在本章前面的讨论中，我们假设训练样本是线性可分的，即存在一个划分 
超平面能将训练样本正确分类.然而在现实任务中，原始样本空间内也许并不 
存在一个能正确划分两类样本的超平面.例如图 6.3 中的“异或”问题就不是 
线性可分的. 

▲ 


x < t >( x ) 

=> 


图 6.3 异或问题与非线性映射 




参见第12章. 


对这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得 
样本在这个特征空间内线性可分.例如在图 6.3 中，若将原始的二维空间映射 
到一个合适的三维空间，就能找到一个合适的划分超平面.幸运的是，如果原始 
空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分. 

令 cj ){ x ) 表示将^映射后的特征向量，于是，在特征空间中划分超平面所对 
应的模型可表示为 

f { x ) = w T ( j )( x ) + b , (6.19) 


其中 w 和6是模型参数.类似式 (6.6), 有 


min — w 
w，b 2 

s . t . yi ( w T ( f >( xi ) + 6) ^ 1, i = 1, 2,..., m . 


( 6 . 20 ) 


其对偶问题是 


max 


2 [E 


( 6 . 21 ) 
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这称为 

nel trick). 


S . t . > : OLilfi = 0 , 
i=l 

ai ^ 0 , i = 1,2, … ，m • 


求解式 (6.21) 涉及到计算 狀 xdixj ), 这是样本叫与％映射到特征空间 
之后的内积.由于特征空间维数可能很高，甚至可能是无穷维，因此直接计算 

通常是困难的.为了避开这个障碍，可以设想这样一个 函数： 

Xj ) = 〈 0(a^) ， (f){xj) , (6.22) 


即&与 ％在特征空间的内积等于它们在原始样本空间中通过函数/ <•,.) 计算 
( ker - 的结果.有了这样的函数，我们就不必直接去计算高维甚至无穷维特征空间中 
的内积，于是式 (6.21) 可重写为 


max 






S . t . 〉: O^iDi — 0 , 
i=l 

ai ^ 0 , f = 1 ， 2, ...，m . 


(6.23) 


求解后即可得到 

/( a ?) 二 w T ( j )( x ) + b 

m 

二 ^2 c ^ iyi ( l ){ xi ) T cj )( x ) H - b 

i=l 

m 

=^2 aiyiK ,( x , Xi ) ^rb . (6.24) 

i=l 

这里的函数 &(•, •) 就是“核函数” (kernel function ). 式 (6.24) 显示出模型最 
优解可通过训练样本的核函数展幵，这一展式亦称“支持向量展式” (support 
vector expansion ). ( 

显然，若已知合适映射多 ㈠ 的具体形式，则可写出核函数但在现实 
任务中我们通常不知道》(•）是什么形式，那么，合适的核函数是否一定存在呢? 
什么样的函数能做核函数呢？我们有下面的定理： 
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证明可参阅 [Scholkopf 
and Smola , 2002]. 


这方面有一些基本的经 
验，例如对文本数据通常 
采用线性核，情况不明时 
可先尝试高斯核. 


d = 1时退化为线性核. 
高斯核亦称 RBF 核. 


第6章支持向量机 


定理 6.1 (核函数） 令 Y 为输入空间， K (.，•） 是定义在疋 X 1 上的对称 
函数， 则 K 是核函数当且仅当对于任意数据 D “核矩 

阵 ” （kernel matrix ) K 总是半正定的： 


K 




iXi.Xx) 


® l ) 








K,(xi : Xj) 




Xj ) 






Kj^XfYly X<1 


定理 6.1 表明，只要一个对称函数所对应的核矩阵半正 定，. 它就能作为核 
函数使用.事实上，对于一个半正定核矩阵，总能找到一个与之对应的映射 
小. 换言之，任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空 
间 ” （Reproducing Kernel Hilbert Space , 简称 RKHS ) 的特征 空间. 

通过前面的讨论可知，我们希望样本在特征空间内线性可分，因此特征空 
间的好坏对支持向量机的性能至关重要.需注意的是，在不知道特征映射的形 
式时，我们并不知道什么样的核函数是合适的，而核函数也仅是隐式地定义了 
这个特征空间.于是，“核函数选择”成为支持向量机的最大变数.若核函数 
选择不合适，则意味着将样本映射到了一个不合适的特征空间，很可能导致性 
能不佳. 

表 6.1 列出了几种常用的核函数. 


表 6.1 常用核函数 


名称 

表达式 


参数 

线性核 




多项式核 

K(Xi ， Xj) 


为多项式的次数 

高斯核 


- exp ( "%，"） 

cr > 0为高斯核的带宽 ( width ) 

拉普拉斯核 

《(尤 i ， 尤 jf ) 

- exp ( II 叫-〜 "） 

a > 0 

Sigmoid 核 


= tanh^xjxj + 0) 

tanh 为双曲正切函数，> 0, ^ < 0 


此外，还可通过函数组合得到， 例如： 

•若和勿为核函数，则对于任意正数71、72,其线性组合 


71^1 + 72^2 


(6.25) 
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也是核函数； 

•若 M 和 M 为核函数，则核函数的直积 

z)k2{x^ z) (6.26) 

也是核函数； 

•若 M 为核函数，则对于任意函数 g ( x ), 

k,(x,z) = g{x)hii{x 1 z)g{z) (6.27) 


也是核函数. 

6.4 软间隔与正则化 

在前面的讨论中，我们一直假定训练样本在样本空间或特征空间中是线性 
可分的，即存在一个超平面能将不同类的样本完全划分开.然而，在现实任务 
中往往很难确定合适的核函数使得训练样本在特征空间中线性可分；退一步说， 
即便恰好找到了某个核函数使训练集在特征空间中线性可分，也很难断定这个 
貌似线性可分的结果不是由于过拟合所造成的. 

缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此，要引 
入“软间隔” (soft margin ) 的概念，如图 6.4 所示. 



具体来说，前面介绍的支持向量机形式是要求所有样本均满足约束(6.3)， 
即所有样本都必须划分正确，这称为“硬间隔” (hard margin ), 而软间隔则是 
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允许某些样本不满足约束 
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对率损失是对率函数的 
变形，对率函数参见 3.3 
节 • 

对率损失函数通常表示 
为 W .), 因此式 (6.33) 把 
式 (3.15) 中的 ln (.) 改写为 
log(-)- 


yi ( w T Xi + b ) ^ 1 . (6.28) 

当然，在最大化间隔的同时，不满足约束的样本应尽可能少.于是，优化目标可 
与为 

(6.29) 


(6.30) 

显然，当 C 为无穷大时，式 (6.29) 迫使所有样本均满足约束(6.28)，于是 
式 (6.29) 等价于 (6.6); 当 C 取有限值时，式 (6.29) 允许一些样本不满足 约束. 

然而，非凸、非连续，数学性质不太好，使得式 (6.29) 不易直接求解.于 
是，人们通常用其他一些函数来代替 £ q /； l , 称为“替代损失” (surrogate loss ). 
替代损失函数一般具有较好的数学性质，如它们通常是凸的连续函数且是4/1 
的上界.图 6.5 给出了三种常用的替代损失 函数： 

hinge 损失 ： ihingeiA = rnax (0 , 1 - z ) ; (6.31) 

指数损失 (exponential loss ) : i eX p { z ) — exp (—之）； 

对率损失 (logistic loss ): i \ 0 g [ z ) — log(l + exp (— z )) 

若采用 hinge 损失，则式 ( 6 . 29 ) 变成 

1 m 

min -|| ti ；|| 2 + C^max (0 ,1 — yi ( w T Xi + 6)) 

怎 =1 

弓 1 入“松弛变量” (slack variables ) ^ ^ 0,可将式 (6.34) 重写为 

1 m 

9 ll ^ ll 2 + ^ ^ (6.35) 

i=l 


(6.32) 

(6.33) 


(6.34) 


mm 

w,b 


w \\ 2 + Cy^^Q/i {yi (w T Xi + 6 ) — 1 ) 


名 =1 


其中 C > 0 是一个常数，是 “0/1损失函数 


yy 


4 / 1 0 ) 


1 ， ii z < 0; 

0, otherwise . 


mm 

w y b,^i 
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图 6.5 三种常见的替代损失 函数： hinge 损失、指数损失、对率损失 


s . t . yi ( w T Xi + 6) > 1 — & 

& 彡 0 ， i = 1, 2, ... , m. 

这就是常用的“软间隔支持向量机”. 

显然，式 (6.35) 中每个样本都有一个对应的松弛变量，用以表征该样本不满 
足约束 (6.28) 的程度.但是，与式 (6.6) 相似，这仍是一个二次规划问题.于是，类 
似式 (6.8), 通过拉格朗日乘子法可得到式 (6.35) 的拉格朗日函数 

^ m 

L{w,b,cx^^) = ^\\w \\ 2 + 

i=l 

mm 

+ ^2 ai ( l-^-yi ( w T Xi + 6)) ^ (6.36) 

i=l i=l 

其中 oq > Q , / li 彡 Q 是拉格朗日乘子. 


令对 k ;， 6, &的偏导为零可得 


w = 

m 

~ 〉: •> 
i=l 

(6.37) 

0 = 

m 

= E o^iVi , 

i=l 

(6.38) 

C 二 

- ex % H - ill • 

(6.39) 














132 


第 6 章支持向量机 


将式 (6.37)-(6.39) 代入式 (6.36) S 卩可得到式 (6.35) 的对偶问题 


max oii otj yi yj Xj 

° i=l i=l ?=1 


s . t . 〉: oi.iyi — 0 


i=l 


0 ^ cx .^ ^ C % 1,2 ，...，?ri 


(6.40) 



将式 (6.40) 与硬间隔下的对偶问题 (6.11) 对比可看出，两者唯一的差别就在 
于对偶变量的约束 不同： 前者是0 < % < C ， 后者是0 < 叫.于是，可釆用 6.2 
节中同样的算法求解式 (6.40); 在引入核函数后能得到与式 (6.24) 同样的支持向 
量展式. 


类似式(6.13)，对软间隔支持向量机， KKT 条件要求 

> 0 ， > 0 ， 

— 1 + & > 0 ， 
i 

o^i (yif {xi) — 1 + &) = 0 ， 

、 ^ 0 , = 0 . 


(6.41) 


于是，对任意训练样本总有= 0或 yif ( xi ) — 1 — 若二 0, 则 
该样本不会对 f ( x ) 有任何影响；若％ > 0,则必有 yif ( xi ) = 1 — 即该样卒 
是支持向量：由式 (6.39) 可知，若呢< C , 则 a > 0,进而有& = 0,即该样本 
恰在最大间隔边界上；若= C ， 则有叫= 0,此时若 ^ 1 则该样本落在最 
大间隔内部，若 $>1 则该样本被错误分类.由此可看出，软间隔支持向量机的 
最终模型仅与支持向量有关，即通过采用 hinge 损失函数仍保持了稀疏性. 

那么，能否对式 (6.29) 使用其他的替代损失函数呢？ 

可以发现，如果使用对率损失函数 4> g 来替代式 (6.29) 中的0/1损失函数， 
则几乎就得到了对率回归模型 (3.27). 实际上，支持向量机与对率回归的优化 
目标相近，通常情形下它们的性能也相当.对率回归的优势主要在于其输出具 
有自然的概率意义，即在给出预测标记的同时也给出了概率，而支持向量机的 
输出不具有概率意义，欲得到概率输出需进行特殊处理 [ Platt ， 20 ㈤ ]; 此外，对 
率回归能直接用于多分类任务，支持向量机为此则需进行推广 psu and Lin ， 
2002]. 另一方面，从图 6.5 可看出， hinge 损失有一块“平坦”的零区域，这使 
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得支持向量机的解具有稀疏性，而对率损失是光滑的单调递减函数，不能导出 
类似支持向量的概念，因此对率回归的解依赖于更多的训练样本，其预测开销 

田 


我们还可以把式 (6.29) 中的0/1损失函数换成别的替代损失函数以得到 
其他学习模型，这些模型的性质与所用的替代函数直接相关，但它们具有一 
个 共性： 优化目标中的第一项用来描述划分超平面的“间隔”大小，另一项 

用来表述训练集上的误差，可写为更一般的形式 


min Q (/)+ C ^^(/( a )，％)， (6.42) 

i=l 


正则化可理解为一种 
“罚函数法”，即对不希 
望得到的结果施以惩罚, 
从而使得优化过程趋向于, 
希望目标.从贝叶斯估计 
的角度来看，正则化项可 
认为是提供了模型的先验 
概率. 

， , 

参见 11.4 节. 


其中 fl ( f ) 称为“结构风险” (structural risk )， 用于描述模型/的某些性质；第 
二项叫)，讲）称为“经验风险 ” （empirical risk ), 用于描述模型与训练 
数据的契合 程度; C 用于对二者进行折中.从经验风险最小化的角度来看， n ( f ) 
表述了我们希望获得具有何种性质的模型(例如希望获得复杂度较小的模型), 
这为引入领域知识和用户意图提供了 途径； 另一方面，该信息有助于削减假设 
空间，从而降低了最小化训练误差的过拟合风险.从这个角虔来说，式 (6.42) 称 
为“正则化” （ regularization ) 问题,叫/)称为正则化项， C 则称为正则化常数. 
L p 范数 ( norm ) 是常用的正则化项，其中 L 2 范数卜|| 2 倾向于切的分量取值 
尽量均衡，即非零分量个数尽量稠密，而 Lo 范数 || w||o 和 h 范数 || ii；||i 则倾向 
于 w 的分量尽量稀疏，即非零分量个数尽量少. 


6.5 支持向量回归 

现在我们来考虑回归问题.给定训练样本 D 二 {{ x u y l ),{ x 2 , y 2 ),..., 
yi G M , 希望学得一个形如式 (6.7) 的回归模型，使得 f ( x ) 与 y 尽可 
能接近， it ; 和6是待确定的模型参数. 

对样本 ( x , y ), 传统回归模型通常直接基于模型输出 f ( x ) 与真实输出 2 /之 
间的差别来计算损失，当且仅当 f ( x ) 与 y 完全相同时，损失才为零.与此不同, 
支持向量回归 (Support Vector Regression ， 简称 SVR ) 假设我们能容忍 f ( x ) 与 
y 之间最多有 e 的偏差，即仅当 f ㈤ 与 y 之间的差别绝对值大于 e 时才计算损 
失.如图 6.6 所示,这相当于以 f ( x ) 为中心，构建了一个宽度为 2 e 的间隔带，若 
训练样本落入此间隔带，则认为是被预测正确的. 
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0 


T 


图 6.6 支持向量回归示意图.红色显示出 e - 间隔带，落入其中的样本不计算损失. 


于是， SVR 问题可形式化为 


min 

w,b 


W 


2 


m 

^~'A 


~Vi) 


(6.43) 


其中 （7 为正则化常数， 4 是图 6.7 所示的 e - 不敏感损失 ( e-insensitive loss ) 函数 



if | z | ^ e ; 
otherwise . 


(6.44) 


间隔带两侧的松弛程度 
可有所不同. 


引入松弛变量&和&，可将式 (6.43) 重写为 

1 m 

min . 5IIHI 2 + + 


(6.45) 



if | z | 彡 e ; 
otherwise . 


图 6.7 e - 不敏感损失函数 
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s.t. f(xi ) —扒彡 e + & , 

八 

Vi - f(xi ) 彡 e + & , 

^ 0, ^ 0 , i = l ， 2 ， ... ， m. 


类似式 (6.36)， 通过引入拉格朗日乘子 a > 0,仏 > 0,叫 > 0 , ai ^ 0,由拉 
格朗日乘子法可得到式 (6.45) 的拉格朗日函数 

八 

L(w,b,oc,OL^^, fx.fi) 


W 


2 


+ C + ii) ~ 


i=l 


i=l 


i=l 


m 


a i{f ( x i) — Hi — e — Ci) + (Vi — f (^i) ~ e ~ ii) 


(6.46) 


i=l 


i—\ 


将式 (6.7) 代入，再令 L ( iu , 6, a , 6:, |，之,//， / l ) 对 ty , 6, &和厶的偏导为零可得 


m 


^ — > : ( 知 — OLj^jXi 


i=l 

m 


0 = — ai ), 


i=l 


C ― (Xi -h Hi 
C = dti 


(6.47) 

(6.48) 

(6.49) 

(6.50) 


将式 (6. 47 )-( 6 . 5 0) 代入式 (6. 4 6), 即可得到 SVR 的对偶问题 


m 


max 

CX,Ot 


Vi — 叫） t e {oii + OLi) 


i=\ 


m m 


公釦 -％)« a j ) x I x j 

i=l j=l 


s . t . — a ^) = 0 


i=l 


(6.51) 


0 < 叫，知彡 （7 


上述过程中需满足 KKT 条件，即要求 
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OH<J(xi) — yi — e — &) = 0 , 

o^i(Vi - / ㈣ —e — 厶 ） = 0 , 

< 八 

aidti — 0 , iiii = 0 , 

(C — ai)^i = 0 5 (C — ai)ii = 0 . 


(6.52) 


可以看出，当且仅当 /(&) — 鉍 — e - & = 0时與能取非零值，当且仅当 
Vi - f ( xi ) — e — 厶= 0时&能取非零值.换言之，仅当样本不落入 e - 间 
隔带中，相应的％和屯才能取非零值.此外，约束 f ( xi ) — % — e — & = 0和 
Vi - f( Xi )- e -ii = 0 不能同时成立，因此％和知中至少有一个 为零. 


将式 (6.47) 代入 (6.7), 则 SVR 的解形如 


m 

/㈤= 幻知 - oti)xJx^rb . 

i=l 


(6.53) 


落在 e •间 P 南带中的样本 
都满足叫= 0且知= ()• 


能使式 (6.53) 中的问 ~ ai )^0 的样本即为 SVR 的支持向量，它们必落在 
e - 间隔带之外.显然， SVR 的支持向量仅是训练样本的一部分，即其解仍具有稀 
疏性. 


由 KKT 条件(6.5 2 )可看出，对每个样本 ( x uyi ) 都有 （C - = 0且 

ai ( f ( xi ) - yi - e -^ i )=0. 于是，在得到 ai 后，若0 < ai < C ， 则必有 & = 0, 
'进而有 

m 

b = yi -\- e - ^(di - ai)xjx . (6.54) 

i=l 

因此,在求解式 (6.51) 得到％后，理论上来说，可任意选取满足0 < % < C 的样 
本通过式 (6.54) 求得 6. 实践中常采用一种更鲁棒的 办法： 选取多个(或所有)满 
足条件0 < % < C 的样本求解6后取平均值. 

若考虑特征映射形式(6.19)，则相应的，式 (6.47) 将形如 

• m 

^ — ai )4>( xi ) . (6.55) 

i=l 

将式 (6.55) 代入(6.19)，则 SVR 可表示为 
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证明参阅 [Scholkopf and 
Smola , 2002], 其中用到了 

关于实对称矩阵正定性充 
要条件的 Mercer 定理. 


线性判别分析见 3.4 节. 


/ ㈤ =幻屯 — ai ) n { x ^ Xi ) + b , (6.56) 

i=l 

其中 K(Xi,Xj) = (j){Xi) T (f){Xj) 为核函数. 

6.6 核方法 

回顾式(6.2 4 )和 (6.56) 可发现,给定训练样本{(灼，讥),(叱，妁)，…, 
{ x mi Vm )}^ 若不考虑偏移项则无论 SVM 还是 SVR , 学得的模型总能表 
示成核函数的线性组合.不仅如此，事实上我们有下面这个称为“表 
示定理 ” （representer theorem ) 的更一般的结论： 

定理 6.2 ( 表示定理） 令 H 为核函数 k 对应的再生核希尔伯特空间， \\h\\ m 
表示皿空间中关于/ I 的范数，对于任意单调递增函数0: [0, oo ] 和任意非 


负损失函数彳 ： M m 4[0 ，c 

o ], 优化问题 


min F ( h ) = 

heB . 

: n (||/ i || M ) + h(X 2 )”.., h(x m )) 

(6.57) 

的解总可写为 

771 



h*(x) = ^ Xi ). 

(6.58) 


表示定理对损失函数没有限制，对正则化项 Q 仅要求单调递增，甚至不要 
求 D 是凸函数，意味着对于一般的损失函数和正则化项，优化问题 (6.57) 的最优 
解 h % x ) 都可表示为核函数 K { x , Xi ) 的线性 组合； 这显示出核函数的巨大威力. 

人们发展出一系列基于核函数的学习方法，统称为“核方法” (kernel 
methods ). 最常见的，是通过“核化”（即引入核函数)来将线性学习器拓展为 
非线性学习器.下面我们以线性判别分析为例来演示如何通过核化来对其进 
行非线性拓展，从而得到“核线性判别分析” (Kernelized Linear Discriminant 
Analysis , 简称 KLDA ). 

我们先假设可通过某种映射将样本映射到一个特征空间 F ， 然 
后在 F 中执行线性判别分析，以求得 


h(x) = w T (f)(x ). 


(6.59) 
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类似于式 (3.35), KLDA 的学习目标是 


w T 8fw 

w T Stw 


(6.60) 


其中 sf 和分别为训练样本在特征空间 F 中的类间散度矩阵和类内散 
度矩阵 .令不 表示第 i G {0, I ；} 类样本的集合，其样本数为总样本数 
m = mo + mi . 第 i 类样本在特征空间 F 中的均值为 

= ~~ Y1 5 ( 6 . 61 ) 

m x % 

两个散度矩阵分别为 

s 6 = (Ml - Mo)(Mi-A^ o) T 5 (6.62) 

S t = J2Yl 以 ㈤ —Mf) 0 ㈤ —/4) T • (6.63) 

i=Q x£Xi 


通常我们难以知道映射 (/> 的具体形式，因此使用核函数，而）= 
来隐式地表达这个映射和特征空间 F •把 J ( w ) 作为式 (6.57) 中 
的损失函数£，再令 D 三0,由表示定理，函数 h ( x ) 可写为 




m 

h { x ) = ^ ^ OijKjx^ Xj ) ， 

1=1 

(6.64) 

于是由式 (6.59) 可得 

Tfl 



it%/ 

w = ^2ai<p(xi) . 

i=l 

(6.65) 

令 K G R mxm 为核函数 

所对应的核矩阵， ( K )^-= 


{1,0 }^ xl 为第 i 类样本的指示向量，即 h 的第 j 个分量为1当且仅当％ e 不， 

否则 h 的第/个分量为 0. 再令 


Mo . = 

丄 Klo ， 

m 0 

丄 KU , 

mi 

(6.66) 

Ai = 

(6.67) 

M = 

(Ao — Ai ) (Ao — Ai ) t ， 

(6.68) 
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求解方法参见 3.4 节. 


线性核 SVM 迄今仍是 
文本分类的首选技术 .一 
个重要原因可 能是： 若将 
每个单词作为文本数据的 
一个属性，则该属性空间 
维数很高，冗余度很大，其 
描述能力足以将不同文档 
“打散”.关于打散,参见 
12.4 节. 


m 是样本个数. 


1 


N = KK T — 


i=0 


(6.69) 


于是，式 (6.60) 等价为 


max J ( a ) 

OL 


ck t M« 
a T Na • 


(6.70) 


显然，使用线性判别分析求解方法即可得到 ck , 进而可由式 (6.64) 得到投影 
函数 / i (4. 

6.7 阅 读材料 

支持向量机于1995年正式发表 [Cortes and Vapnik , 1995], 由于在文本分 
类任务中显示出卓越性能 [ Joachims , 1998], 很快成为机器学习的主流技术，并 
直接掀起了 “统计学习” (statistical learning ) 在2000年前后的高潮.但实际 
上，支持向量的概念早在二十世纪六十年代就已出现，统计学习理论在七十年 
代就已成型.对核函数的研究更早， Mercer 定理 [Cristianini and Shawe - Taylor , 
2000] 可追溯到1909年， RKHS 则在四十年代就已被研究，但在统计学习兴起 
后，核技巧才真正成为机器学习的通用基本技术.关于支持向量机和核方法有 
很多专门书籍和介绍性文章 [Cristianini and Shawe - Taylor , 2000; Burges , 1998; 
邓乃扬与田英杰，2009; Scholkopf et al ., 1999; Scholkopf and Smola ，2002], 统 
计学习理论则可参阅 [ Vapnik , 1995, 1998, 1999]. 

支持向量机的求解通常是借助于凸优化技术 [Boyd and Vandenberghe , 
2004]. 如何提高效率，使 SVM 能适用于大规模数据一直是研究重点.对线性核 
SVM 已有很多成果 5 例如基于割平面法 (cutting plane algorithm ) 的 SVM perf 
具有线性复杂度 [ Joachims , 2006] ,基于随机梯度下降的 Pegasos 速度甚至更 
快 [ Shalev-Shwartz et al , 2011], 而坐标下降法则在稀疏数据上有很高的效率 
[Hsieh et al , 2008]. 非线性核 SVM 的时间复杂度在理论上不可能低于 0( m 2 )， 
因此研究重点是设计快速近似算法，如基于釆样的 CVM [Tsang et al . ? 2006]. 
基于低秩逼近的 Nystrom 方法 [Williams and Seeger , 2001]、基于随机傅里叶 
特征的方法 [Rahimi and Recht , 2007] 等.最近有研究显示，当核矩阵特征值有 
很大差别时， Nystrom 方法往往优于随机傅里叶特征方法 [Yang et al ., 2012]. 

支持向量机是针对二分类任务设计的，对多分类任务要进行专门的推广 
Hsu and Lin , 2002], 对带结构输出的任务也已有相应的算法 [Tsochantaridis 
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集成学.习参见第8章. 


一致性亦称“相合性”. 


et al ., 2005]. 支持向量回归的研究始于 [Drucker et al ., 1997], [Smola and 
Scholkopf , 2004] 给出了一个较为全面的介绍. 

核函数直接决定了支持向量机与核方法的最终性能，但遗憾的是，核函数 
的选择是 一 个未决 问题. 多核学习 (multiple kernel learning ) 使用多个核函数并 
通过学习获得其最优凸组合作为最终的核函数 [Lanckriet et al ., 2004; Bach et 
al .，2004], 这实际上是在借助集成学习机制. 

替代损失函数在机器学习中被广泛使用.但是，通过求解替代损失 
函数得到的是否仍是原问题的解？这在理论上称为替代损失的“一致 
性” （ consistency ) 问题 . [Vapnik and Chervonenkis , 1991] 给出 了基于替代损 
失进行经验风险最小化的一致性充要条件， [ Zhang , 2004] 证明了几种常见凸替 
代损失函数的一致性. 

SVM 已有很多软件包，比较著名的有 LIBSVM [Chang and Lin , 2011] 和 
LIBLINEAR [Fan et al .，2008] 等. 
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习题 


6.1 试证明样本空间中任意点 z 到超平面 ( w ， b ) 的距离为式 (6.2). 


LIBSVM 见 http :// www . 
csie . ntu . edu . tw /~ cjlin / libsvm /. 

西瓜数据集 3.0 ck 见 p .89 
的表 4.5. 


UCI 数据集见 

http :// archive . ics . uci . edu / ml /. 


6.3 


试使用 LIBSVM , 在西瓜数据集 3.0 a 上分别用线性核和高斯核训练 
一个 SVM , 并比较其支持向量的差别. 

选择两个 UCI 数据集，分别用线性核和高斯核训练一个 SVM , 并与 
BP 神经网络和 C 4.5 决策树进行实验比较. 


6.4 试讨论线性判别分析与线性核支持向量机在何种条件下等价. 

6.5 试述高斯核 SVM 与 RBF 神经网络之间的联系. 

6.6 试析 SVM 对噪声敏感的原因. 

6.7 试给出式 (6.52) 的完整 KKT 条件. 

6.8 以西瓜数据集 3.0 a 的“密度”为输入，“含糖率”为输出，试使用 
LIBSVM 训练一个 SVR . 

6.9 试使用核技巧推广对率回归，产生“核对率回归”. 

6.10* 试设计一个能显著减少 SVM 中支持向量的数目而不显著降低泛化性 
能的方法. 1 
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SVM 的确与神经网络有 
密切 联系： 若将隐层神经 
元数设置为训练样本数, 
且每个训练样本对应一 
个神经元中心，则以高斯 
径向基函数为激活函数的 
RBF 网络(参见 5.5.1 节)恰 
与高斯核 SVM 的预测函 
数 相同. 


小 故事： 统计学习理论之父弗拉基米尔•瓦普尼克 

弗拉基米尔 • 瓦普尼克 （Vladimir N. Vapnik， 1936 一 ) 

是杰出的数学家、统计学家、计算机科学家.他出生于苏 
联， 1958 年在乌兹别克国立大学获数学硕士学位， 1964 年 
在莫斯科控制科学学院获统计学博士学位，此后一直在该校 
工作并担任计算机系主任 .1990 年 ( 苏联解体的前一年)他 
离开苏联来到新泽西州的美国电话电报公司贝尔实验室工作， 1995 年发表了 
最初的 SVM 文章 . 当时神经网络正当红，因此这篇文章被权威期刊 Machine 
Learning 要求以 “ 支持向量网络 ” 的名义发表 . 

实际上，瓦普尼克在 1963 年就已提出了支持向量的概念， 1968 年他与另 
一位苏联数学家 A. Chervonenkis 提出了以他们两人的姓氏命名的 “VC 维”， 
1974 年又提出了结构风险最小化原则，使得统计学习理论在二十世纪七十年代 
就已成型 . 但这些工作主要是以俄文发表的，直到瓦普尼克随着东欧剧变和苏 
联解体导致的苏联科学家移民潮来到美国，这方面的研究才在西方学术界引起 
重视，统计学习理论、支持向量机、核方法在二十世纪末大红大紫 . 

瓦普尼克 2002 年离开美国电话电报公司加入普林斯顿的 NEC 实验室， 
2014 年加盟脸书 (Facebook) 公司人工智能实验室 .1995 年之后他还在伦敦大 
学、哥伦比亚大学等校任教授.据说瓦普尼克在苏联根据一本字典自学了英语 
及其发音 . 他有一句名言被广为传诵 ： “Nothing is more practical than a good 
theory.” 






决策论中将“期望损 
失”称为“风险” ( risk ). 


错误率对应于0/1损失 
函数,参见第6章. 


第7章贝叶斯分类器 


7.1 贝叶斯决策论 

贝叶斯决策论 (Bayesian decision theory ) 是概率框架下实施决策的基本方 
法.对分类任务来说,在所有相关概率都已知的理想情形下，贝叶斯决策论考虑 
如何基于这些概率和误判损失来选择最优的类别标记.下面我们以多分类任务 
为例来解释其基本原理. 

假设有 iV 种可能的类别标记，即 y = {c u c 2 ,...,c N }, \ i：j 是将一个真实 
标记为的样本误分类为 q 所产生的损失.基于后验概率 P( Ci | x ) 可获得将 
样本 cc 分类为 Ci 所产生的期望损失 (expected loss ), 即在样本 a ? 上的“条件风 
险” (conditional risk ) 


R(ci I x) = > : XijP[ c j x ) - (7.1) 

j=i ， 

我们的任务是寻找一个判定准则 h ： x 以最小化总体风险 

R (h) = [R {h (x) \x)] . (7.2) 

显然，对每个样本 x ， 若 h 能最小化条件风险 R(h(x) | x ), 则总体风险丑(/0也 
将被最小化.这就产生了贝叶斯判定准则 (Bayes decision rule ): 为最小化总体 
风险，只需在每个样本上选择那个能使条件风险丑 (c | 啲最小的类别标记，即 

h*{x) = argmin jR(c | x) , (7.3) 

此时， / i * 称为贝叶斯最优分类器 (Bayes optimal classifier ), 与之对应的总体风 
脸 R(h” 称为贝叶斯风险 (Bayes risk ). 1 - R(h*) 反映了分类器所能达到的最 
好性能，即通过机器学习所能产生的模型精度的理论上限. 

具体来说，若目标是最小化分类错误率，则误判损失 Ay 可写为 
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注意，这只是从概率框 
架的角度来理解机器学习 
事实上很多机器学习技术 
无须准确估计出后验概率 
就能准确进行分类. 


P ( x ) 对所有类标记均 
相同. 

为便于讨论，我们假设 
所有属性均为离•^型.对 
连续属性，可将概率质量 
函数 P (.) 换成概率密度函 
•数 P ㈠ . 



Xij = 



• (* • 馨 

II ^ J ； 

otherwise , 


此时条件风险 

R(c \ x ) — 1 — P(c I x ) 

于是，最小化分类错误率的贝叶斯最优分类器为 



(7-5) 


/ i *( cc ) = arg max P(c | x ) , (7.6) 

即对每个样本％选择能使后验概率 I 4 最大的类别标记. 

不难看出，欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概 
率 P(c | T ). 然而，在现实任务中这通常难以直接获得.从这个角度来看，机 
器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 


P{c I x ). 大体来说，主要有两种 策略： 给定 cc, 可通过直接建模 P(c | X) 来 
预测 c ， 这样得到的是“判别式模型” (discriminative models ); 也可先对联合 
概率分布 P { x , c ) 建模，然后再由此获得 J°(c | CC ), 这样得到的是“生成式模 
型” (generative models ). 显然，前面介绍的决策树、 BP 神经网络、支持向量 
机等，都可归入判别式模型的范畴.对生成式模型来说，必然考虑 


P(C 卜卜 鸯 f * (7 . 7) 

基于贝叶斯定理， | 4可写为 

释 )=㈣ 

其中， P ( c ) 是类“先验” （ prior ) 概率 ； I C ) 是样本 z 相对于类标记 c 的类 
条件概率 ( class-conditional probability ), 或称为 “似然” ( likelihood ); 尸 (a?) 是 
用于归一化的“证据” （ evidence ) 因子.对给定样本 X ，证据因子 _ P ( ic ) 与类标 
记无关，因此估计 | x ) 的问题就转化为如何基于训练数据 D 来估计先验 
P ( c ) 和似然 | c ). 


类先验概率 P ( c ) 表达了样本空间中各类样本所占的比例，根据大数定律, 
当训练集包含充足的独立同分布样本时， P ( c ) 可通过各类样本出现的频率来进 
行估计. 

对类条件概率 | c ) 来说，由于它涉及关于 ® 所有属性的联合概率，直 
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参见7_3节 • 


连续分布下为概率密度 
函数 p(£C | C). 


从二十世纪二三十年代 
开始出现了频率主义学 
派和贝叶斯学派的争论, 
至今仍在继续.两派在很 
多重要问题上观点不同, 
甚至在对概率的基本解 
释上就有分歧.有兴趣的 
读者可参阅 [ Efron , 2005; 
Samaniego , 2010]. 

亦称“极大似然法 ”■ 


接根据样本出现的频率来估计将会遇到严重的困难.例如，假设样本的 d 个属 
性都是二值的，则样本空间将有2^种可能的取值，在现实应用中，这个值往往 
远大于训练样本数 m , 也就是说，很多样本取值在训练集中根本没有出现，直 
接使用频率来估计 | c ) 显然不可行，因为“未被观测到”与“出现概率为 
零”通常是不同的. 

7.2 极大似然估计 

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形 
式，再基于训练样本对概率分布的参数进行估计.具体地，记关于类别 c 的类条 
件概率为 | c ), 假设丨具有确定的形式并且被参数 向量^ 唯一确定， 
则我们的任务就是利用训练集 D 估计参数为明确起见，我们将 | c ) 记 
为 P >|0 C ). 

事实上，概率模型的训练过程就是参数估计 (parameter estimation ) 过程. 
对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学 
派 ( Frequentist ) 认为参数虽然未知，但却是客观存在的固定值，因此，可通过优 
化似然函数等准则来确定参数值；贝叶斯学派 ( Bayesian ) 则认为参数是未观察 
到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后 
基于观测到的数据来计算参数的后验分布.本节介绍源自频率主义学派的极大 
似然估计 (Maximum Likelihood Estimation , 简称 MLE ), 这是根据数据采样来 
估计概率分布参数的经典方法. 

♦ D c 表示训练集 D 中第 c 类样本组成的集合，假设这些样本是独立同分 
布的，则参数对于数据集的似然是 

P ( D C \e c )= J ] P(x I e c ) . (7.9) 

xeD c 


对乂进行极大似然估计，就是去寻找能最大化似然 p { d c | e c ) 的参数值先.直 
观上看，极大似然估计是试图在^所有可能的取值中，找到一个能使数据出现 
的“可能性”最大的值. 

式 (7.9) 中的连乘操作易造成下溢,通常使用对数似然 ( log - likelihood ) 


LL (6 C ) = log P ( D C I e c ) 

=工 iogP(x I e c ), 


(7.10) 
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Af 为正态分布，参见附 
录 C . I .7. 


基于有限训练样本 直接. 
估计联合概率，在计算上 
将会遭遇组合爆炸问题， 
在数据上将会遭遇样本稀 
疏 问题; 属性数越多，问题 
越严重. 


此时 参数^ 的极大似然估计先为 


、 

八 

0 C — arg max LL(0 c ). 

(7.11) 



e c 


例如，在连续属性情形下，假设概率密度函数 

1，则参数 

Me 和％ 2 的极大似然估计为 




八 

Me ~ 

1 


(7.12) 



x^.D c 


-2 

= - 

1 

D c 

- 乏 〕 (x — fic)(x — / X C ) T . 

(7.13) 


也就是说，通过极大似然法得到的正态分布均值就是样本均值，方差就是 
(x - fb c )(X — flcY 的均值，这显然是一个符合直觉的结果.在离散属性情形下 5 
也可通过类似的方式估计类条件概率. 

- 需注意的是，这种参数化的方法虽能使类条件概率估计变得相对简单，但 
估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数 
据分布.在现实应用中，欲做出能较好地接近潜在真实分布的假设，往往需在一 
定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率 
分布形式，很可能产生误导性的结果. 

7.3 朴素贝叶斯分类器 

不难发现，基于贝叶斯公式 (7.8) 来估计后验概率 P(c | T ) 的主寶困难 在于: 
类条件概率 | c ) 是所有属性上的联合概率，难以从有限的训练样本直接 
估计而得.为避开这个障碍，朴素贝叶斯分类器 (naive Bayes classifier ) 采用了 
“属性条件独立性假设 ” （attribute conditional independence assumption ): 对 
已知类别，假设所有属性相互独立.换言之，假设每个属性独立地对分类结果发 
生影响. 

基于属性条件独立性假设，式 (7.8) 可重写为 

. P(c|x) = ^)^) = |gf [ F(Xi|c)； (7 . 14) 
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而实际上是一个“属 
性-值”对，例如“色 
泽二青绿”.为便于讨论, 
在上下文明确时，有时我 
们用而表示第 < 个属性 
对应的变量(如“色泽” ）, 
有时直接用其指代 * 在第 
% 个属性上的取值(如“青 
绿 ”）. 


西瓜数据集 3.0 见 p.84 
表 4.3. 


其中为属性数目，&为; r 在第《个属性上的取值. 


由于对所有类别来说相同，因此基于式 (7.6) 的贝叶斯判定准则有 


h n b ( x ) = arg max 


d 

P ( c ) YlP ( Xi \ c ), 
i=l 


(7.15) 


这就是朴素贝叶斯分类器的表达式. . 

显然，朴素贝叶斯分类器的训练过程就是基于训练集 D 来估计类先验概率 
P ( c ), 并为每个属性估计条件概率 P{xi I c ). 

令表示训练集 D 中第 C 类样本组成的集合，若有充足的独立同分布样 
本，则可容易地估计出类先验概率 


P ( c ) = ^ . (7.16) 

对离散属性而言，令 D c ， Xi 表示认中在第 f 个属性上取 值为& 的样本组成的 
集合，则条件概率 P(xi | c ) 可估计为 

P{xi | c ) - . (7.17) 

对连续属性可考虑概率密度函数，假定 | c ) 〜 O 其中和 4 
分别是第 c 类样本在第 i 个属性上取值的均值和方差，则有 ， ’ 

p(^i I c ) - — exp (~ ^ X \ 2 °^ ) • ( 7 . 18 ) 

v 27T(J c ^ V ) 


下面我们用西瓜数据集 3.0 训练一个朴素贝叶斯分类器，对测试例“测 
1”进行分类： 


编号 

色泽 

根蒂 

敲声 

纹理 

脐部 

触感 

密度 

含糖率好瓜 

测1 

青绿 

蜷缩 

浊响 

清晰 

凹陷 

硬滑 

0.697 

0.460 ? 


首先估计类先验概率 P ( c ), 显然有 

P (好瓜=是) =备 w 0.471 , 
P (好瓜 =否)= 0.529 . 
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注意，当样本数目足够 
多时才能进行有意义的概 
率估计.本书仅是以西瓜 
数据集 3.0 对估计过程做 
一个简单的演示. 


然后，为每个属性估计条件概率 P(xi I c ) 


3青绿|是= P (色泽=青绿 I 好瓜 


3 

8 


0.375 


P 青绿陌= P (色泽=青绿 | 好瓜=否）= h s 0.333 


p 蜷缩 I 是 
p 赌缩 I 否 
p 蚀响 I 是 
户蚀响 I 否 


P (根蒂 = 蜷缩 | 好瓜 = 是） =^ = 0.375 

8 

P (根蒂=蜷缩 | 好瓜=否) = 0.333 


• P (敲声=池响 | 好瓜 


P (敲声=浊响 | 好瓜=否) 


6 

8 

4 


0.750 


9 . 


3 清晰1是= P (纹理=清晰 | 好瓜 


7 


是）二 s = 0.875 
8 


P 清晰|否=尸(纹理=清晰 | 好瓜=否）= g a 0.222 


>凹陷丨是=: P (脐部=凹陷 | 好瓜=是: 


6 

8 

2 


0.750 


) 凹陷 |否= p (脐部=凹陷 | 好瓜=否） = 0.222 
〕 硬滑!是=触感=硬滑 | 好瓜=是}=誉 = 0.750 


6 


^ 0.667 


P 硬滑 I 否= P (触感=硬滑 | 好瓜二否 ） ： g 

P 密度: 0.697|是= P (密度 = 0.697 | 好瓜=是） 

(0.697 - 0.574) 2 


V^* 0.129 


exp 


0.129 2 


P 密度: 0.697|否= P (密度 = 0.697 I 好瓜 = 否) 


1 


,2 


exp 


P 含糖： 0.4601 


(0.697 — 0.496 

\/ 2 tt - 0.195 V — 2-0.195 2 
p (含糖率 = 0.460 I 好瓜 = 是） 

(0.460 — 0.279) 2 


exp 


•0.101 2 


P 含糖： 0. 46 0| 否 


V2tt *0.101 
p (含糖率 = 0.460 I 好瓜 = 否) 


1 


V27T* 0.108 


exp 


(0.460-0.154) 
^2 • 0.108 2 


2 


« 1.959 , 


^ 1.203 , 


^ 0.788 


« 0.066 . 
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实践中常通过取对数的 
方式来将“连乘”转化为 
“连加”以避免数值下溢. 
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于是，有 


P (好瓜=是）X P 青绿I是X P 蜷缩 | 是X P 池响 | 是 x P 清晰|是 X P 凹陷I是 
x 尸硬滑 |是 x P 密度： 0.697|是 x P 含糖： 0.4601 是 w 0.038 ， 

P (好瓜 = 否 ） x P 青绿 I 否 X P 赌缩 I 否 X P 池响|否 x P 清晰 I 否 X P 凹陷 I 否 
X P 硬滑|否 X P 密度: 0.697|否 X P 含糖： 0.460| 否 a 6.80 X 10 5 . 


由于 0.038 > 6.80 x 10- 5 ,因此，朴素贝叶斯分类器将测试样本“测1”判别为 
“好 瓜”. 

需注意，若某个属性值在训练集中没有与某个类同时出现过，则直接基于 
式 (7.17) 进行概率估计，再根据式 (7.15) 进行判别将出现问题.例如，在使用西 
瓜数据集 3.0 训练朴素贝叶斯分类器时，对一个“敲声=清脆”的测试例，有 

P 清脆谭=户 (敲声=清脆 I 好瓜=是）=昼= 0， 

由于式 (7.15) 的连乘式计算出的概率值为零，因此，无论该样本的其他属性是什 
么，哪怕在其他属性上明显像好瓜，分类的结果都将是“好瓜=否”，这显然不 
太合理. 

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”， 
在估计概率值时通常要进行“平滑” （ smoothing )， 常用“拉普拉斯修 
正” (Laplacian correction ). 具体来说，令 iV 表示训练集 D 中可能的类别 
数，队 表示第 i 个属性可能的取值数，则式 (7.16) 和 (7.17) 分别修正为 


P ( c ) = 

\ Dq 1 
|^|+iV 5 

(7.19) 

八 

P(Xi c ) = 

it—., t t # . r » - * f —* k r —: 

\^ C,Xi + 1 

D c + Ni . 

(7.20) 

例如，在本节的例于甲，芙无验概率 叫估寸 为 


■ P (好瓜=疋）=17 + 2义 0.474 ， 

户(好瓜 = 否）二 

9 + 1 

: ^ ^ 0.526 . 

17 + 2 


类似地 ， P 青绿! 是和 P 青绿陌可估计为 


户青绿|是=力(色泽=青绿 | 好瓜=是) 


3 + 1 


^ 0.364 


8 + 3 


1 




154 


拉普拉斯修正实质上假 
设了属性值与类别均匀分 
布，这是在朴素贝叶斯学 
习过程中额外引入的关于 
数据的先验. 


懒惰学习参见 10.1 节. 


增量学习参见 5 . 5 .2 节. 


第7章贝叶斯分类器 


户青绿 I 否二 P (色泽=青绿 | 好瓜=否）= - —-^ 0.333 • 

同时，上文提到的概率 p mmM 可估计为 

^ Q I 1 

戶清脆 1 是=户(敲声=清脆 | 好瓜=是）= ■- ~ 0.091 . 

1 0 + 0 

显然，拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题， 
并且在训练集变大时，修正过程所引入的先验 ( prior ) 的影响也会逐渐变得可忽 
略，使得估值渐趋向于实际概率值. 

在现实任务中朴素贝叶斯分类器有多种使用方式.例如，若任务对预测速 
度要求较高，则对给定训练集，可将朴素贝叶斯分类器涉及的所有概率估值事 
先计算好存储起来，这样在进行预测时只需“查表”即可进行 判别； 若任务数 
据更替频繁，则可釆用“懒惰学习 ” （lazy learning ) 方式，先不进行任何训练， 
待收到预测请求时再根据当前数据集进行概率估值；若数据不断增加，则可在 
现有估值基础上，仅对新增样本的属性值所涉及的概率估值进行计数修正即可 
实现增量学习. 

7.4 半朴素贝叶斯分类器 

为了降低贝叶斯公式 (7.8) 中估计后验概率 | - 的困难，朴素贝叶斯分 
类器采用了属性条件独立性假设，但在现实任务中这个假设往往很难成立.于 
是，人们尝试对属性条件独立性假设进行一定程度的放松，由此产生了一类称 
为“半朴素贝叶斯分类器” ( semi-naiVe Bayes classifiers ) 的学习方法. 

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信 
息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依 
赖关系.“独依赖估计” （ One-Dependent Estimator ， 简称 ODE ) 是半朴素贝叶 
斯分类器最常用的一种策略.顾名思议，所谓“独依赖”就是假设每个属性在 
类别之外最多仅依赖于一个其他属性，即 

d 

P(c I x ) oc ^( c ) n p ( x i I c , P a i ) ， (7.21) 

其中 p % 为属性 ' A 所依赖的属性，称为 A 的父属性.此时，对每个属性若 
其父属性已知，则可采用类似式 (7.20) 的办法来估计概率值 I c ， pai ). 
于是，问题的关键就转化为如何确定每个属性的父属性，不同的做法产生不同 
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的独依赖分类器. 
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最直接的做法是假设所有属性都依赖于同一个属性，称为“超父” ( super ¬ 
parent ), 然后通过交叉验证等模型选择方法来确定超父属性，由此形成了 
SPODE ( Super-Parent ODE ) 方法. 例如，在图 7.1( b ) 中，妁是超父属性. 



图 7.1 朴素贝叶斯与两种半朴素贝叶斯分类器所考虑的属性依赖关系 


TAN (Tree Augmented naive Bayes ) [Friedman et al ., 1997] 则是在最大带 
权生成树 (maximum weighted spanning tree ) 算法 [Chow and Liu , 1968] 的基 
础上，通过以下步骤将属性间依赖关系约简为如图 7.1( c ) 所示的树形 结构： 

(1) 计算任意两个属性之间的条件互信息 (conditional mutual information ) 

J (^, xj I y) = Y , ^ 尸(而, A I c ) log d ; ( 7 . 22 ) 

(2) 以属性为结点构建完全图 ^任意 两个结点之间边的权重设为 

I{xi,Xj | y); 

(3) 构建此完全图的最大带权生成树，挑选根变量，将边置为有向； 

(4) 加入类别结点 y , 增加从 y 到每个属性的有向边. 

容易看出，条件互信息 I(xi,Xj I y) 刻画了属性而和％在已知类别情况下 
的相关性，因此，通过最大生成树算法， TAN 实际上仅保留了强相关属性之间 
的依赖性. 


集成学习参见第8章. 


AODE (Averaged One-Dependent Estimator ) [Webb et al ., 2005] 是一种 
基于集成学习机制、更为强大的独依赖分类器.与 SPODE 通过模型选择确定 
超父属性不同， AODE 尝试将每个属性作为超父来构建 SPODE , 然后将那些 
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m ! 默认设为30 [Webb 
et al ., 2005]. 


“高阶依赖”即对多个 
属性依赖. 


贝叶斯网是一种经典的 
概率图模型.概率图模型 
参见第14章. 


具有足够训练数据支撑的 SPODE 集 成起来作为最终结果，即 

d d 

P(c I x ) oc J 2 ^)11 I c ， 巧）， (7.23) 

i=l j=l 

\ D Xi \^ m ' 

其中 Ari 是在第 i 个属性上取 值为心 的样本的集合 ， 为阈值常数.显然， 
AODE 需估计 P ( c ，0 和 P( Xj | c , Xi ). 类似式(7.20)，有 

戶 ( c , Xj ) — 1 1 乃’| 2 n . ， (7.24) 

P(xj I C, X,) =, (7.25) 

其中瓜是第 i 个属性可能的取值数， D c ， Xi 是类别为 c 且在第《个属性上取值 
为 Xi 的样本集合， D c , Xi , Xj 是类别为 c 且在第 i 和第 j 个属性上取值分别为而 
和％的样本集合.例如，对西瓜数据集 3.0 有 

户是油响= P(M =是，敲声= 池响） = A ±1 = 0.350 , 

’ 17 o 

戶凹陷 I 是，池响=户(脐部=凹陷 | 好瓜=是，敲声=浊响）= 0.444 . 

不难看出，与朴素贝叶斯分类器类似， AODE 的训练过程也是“计数”，即 
在训练数据集上对符合条件的样本进行计数的过程.与朴素贝叶斯分类器相 
似， . AODE 无需模型选择，既能通过预计算节省预测时间，也能采取懒惰学习方 
式在预测时再进行计数，并且易于实现增量学习. 

既然将属性条件独立性假设放松为独依赖假设可能获得泛化性能的提升， 
那么，能否通过考虑属性间的高阶依赖来进一步提升泛化性能呢？也就是说， 
将式 (7.23) 中的属性 p % 替换为包含&个属性的集合 pa ^ 从而将 ODE 拓展为 
kDE . 需注意的是，随着 A : 的增加，准确估计概率 P{xi | y , pa ^) 所需的训练样 
本数量将以指数级增加.因此，若训练数据非常充分，泛化性能有可能提升；但 
在有限样本条件下，则又陷入估计高阶联合概率的泥沼. 

7.5 贝叶斯网 

贝叶斯网 (Bayesian network ) 亦称“信念网” (belief network ) ,它借助有向 
无环图 (Directed Acyclic Graph , 简称 DAG ) 来刻画属性之间的依赖关系，并使 
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为了简化讨论，本节假 
定所有属性均为离散型. 
对于连续属性，条件概率 
表可推广为条件概率密度 
函数. 


这里已将西瓜数据集的 
连续属性“含糖率”转化 
为离散属性“甜度” ■ 


这里并未列举出所有的 
条件独立关系. 


用条件概率表 (Conditional Probability Table , 简称 CPT ) 来描述属性的联合概 
率分布. 

具体来说,一个贝叶斯网 B 由结构 G 和参数 ㊀ 两部分构成，即召= ( G ,0). 
网络结构 G 是一个有向无环图，其每个结点对应于一个属性，若两个属性有 
直接依赖关系，则它们由一条边连接 起来； 参数 © 定量描述这种依赖关系， 
假设属性 A 在 G 中的父结点集为％，则 ㊀ 包含了每个属性的条件概率表 

^Xi\lTi ~ | 丌 €)• 

作为一个例子，图 7.2 给出了西瓜问题的一种贝叶斯网结构和属性“根 
蒂”的条件概率表.从图中网络结构可看出，“色泽”直接依赖于“好瓜”和 
“甜度”，而“根蒂”则直接依赖于“甜 度”； 进一步从条件概率表能得到 
“根蒂”对“甜度”量化依赖关系，如 P (根蒂二硬挺 | 甜度=高）= 0.1 等. 


甜 

度 


图 7.2 西瓜问题的一种贝叶斯网结构以及属性“根蒂”的条件概率表 


根蒂 



硬挺 

蜷缩 


0.1 

0.9 

低 

0.7 

0.3 



7.5.1 结构 

贝叶斯网结构有效地表达了属性间的条件独立性.给定父结点集，贝叶斯 
网假设每个属性与它的非后裔属性独立，于是 B = 〈 G , ㊀ 〉将属性 
的联合概率分布定义为 

d d 

Pb ) ^2 5 • • • ， ^ d ) = Y [ P B {Xi I 7 Ti ) = • (7.26) 


以图 7.2 为例，联合概率分布定义为 

P ( x 1 , X 2 , Xs , X 4 : , X 5 ) = P ( X 1 ) P ( X 2 ) P { X 3 I Xi ) P ( x 4 \ Xi , X 2 ) P { x 5 | X 2 ), 

显然， x 3 和 x 4 在给定町的取值时独立，和 rr 5 在给定 x 2 的取值时独立，分 
别简记为$3丄: T 4 I 別和丄: C 5 I X 2. 

图 7.3 显示出贝叶斯网中三个变量之间的典型依赖关系，其中前两种在 
式 (7.26) 中已有所体现. 
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对变量做积分或求和亦 
称“边际化” （ marginal ¬ 
ization ). 


D 是指“有向” ( direct ¬ 
ed ). 

同父、顺序和 V 型结构 
的发现以及有向分离的提 
出推动了因果发现方面的 
研究，参阅 [ Pearl , 1988] _ 


也有译为“端正图”. 

“道德化”的蕴 义：孩 
子的父母应建立牢靠的关 
系，否则是不道德的. 





图 7.3 贝叶斯网中三个变量之间的典型依赖关系 

在“同父” (common parent ) 结构中，给定父结点別的取值，则吻与 $4 
条件独立.在“顺序”结构中，给定 x 的值，则 y 与 z 条件独立 . V 型结构 ( V - 
stmcture ) 亦称“冲撞”结构，给定子结点❿的取值，: ri 与:^ 2 必不独立；奇妙 
的是，若: T4 的取值完全未知，则 V 型结构下: ri 与:^ 2 却是相互独立的.我们做 
一 个简单的验证： 


P ( x 1 , x 2 ) = ^ P ( xi , x 2 , x 4 ) 

X4 


= y ^ P ( x 4 x 1 , x 2 ) P ( x 1 ) P ( x 2 ) 

X 4 


= P ( xi ) P ( x 2) • 

(7.27) 


这样的独立性称为“边际独立性” (marginal independence ) ,记为 x \ II xo . 

事实上，一个变量取值的确定与否，能对另两个变量间的独立性发生影响, 
这个现象并非 V 型结构所特有.例如在同父结构中，条件独立性 x 3 丄 x 4 | 別 
成立， 但若別 的取值未知，则吻和“就不独立，即 x 3 Jbr 4 不 成立； 在顺序结 
构中， y 丄 2 ； | x , 但 2 / 12 ；不成立. 

为了分析有向图中变量间的条件独立性，可使用“有向分离” （ D - 
separation ). 我们先把有向图转变为一个无向图： 

• 找出有向图中的所有 V 型结构，在 V 型结构的两个父结点之间加上一条 
无向边； 

• 将所有有向边改为无向边. 


由此>生的无向图称为“道德图 ” （moral graph ), 令父结点相连的过程称为 
“道德化” （ moralization ) [Cowell et al ., 1999]. 

基于道德图能直观、迅速地找到变量间的条件独立性.假定道德图中有变 
量 A 2 /和变量集合 z = {^},若变量 x 和 2 /能在图上被 z 分开，即从道德图中将 
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归纳偏好参见 1.4 节. 


这里我们把类别也看作 
一个属性，即; Bi 是一个包 
括示例和类别的向量. 


变量集合 Z 去除后， X 和?/分属两个连通分支，则称变量 x 和 y 被 Z 有向分离， 
x 丄 y | z 成立.例如，图 7.2 所对应的道德图如图 7.4 所示， 从图中能容易地找 
出所有的条件独立关系：: r 3 丄 x 4 | 町， x 4 丄邶 | x 2 , x 3 丄奶 | xi , x 3 丄抑 | XI , 
x 3 丄: r 5 | 0：2等 • 



图 7.4 图 7.2 对应的 道德图 


7.5.2 学习 

若网络结构已知，即属性间的依赖关系已知，则贝叶斯网的学习过程相对 
简单，只需通过对训练样本“计数”，估计出每个结点的条件概率表即可.但在 
现实应用中我们往往并不知晓网络结构，于是，贝叶斯网学习的首要任务就是 
根据训练数据集来找出结构最“恰当”的贝叶斯网.“评分搜索”是求解这一 
问题的常用办法.具体来说，我们先定义一个评分函数 (score function ), 以此来 
评估贝叶斯网与训练数据的契合程度，然后基于这个评分函数来寻找结构最优 
的贝叶斯网.显然，评分函数引入了关于我们希望获得什么样的贝叶斯网的归 
纳偏好. 

常用评分函数通常基于信息论准则，此类准则将学习问题看作一个数据压 
缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型，此时 
编码的长度包括了描述模型自身所需的字节长度和使用该模型描述数据所需 
的字节长度.对贝叶斯网学习而言，模型就是一个贝叶斯网，同时，每个贝叶斯 
网描述了一个在训练数据上的概率分布，自有一套编码机制能使那些经常出 
现的样本有更短的编码.于是，我们应选择那个综合编码长度(包括描述网络 
和编码数据)最短的贝叶斯网，这就是“最小描述长度 ” （Minimal Description 
Length , 简称 MDL ) 准则. 

给定训练集 P 贝叶斯网 B = ( G , 0) 在 D 上的评分函 

数可写为 

s(B | D) = f(9)\B\- LL(B I D) , (7.28) 
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即事件在训练数据上出 
现的频率. 


例如 TAN [Friedman et 
al ., 1997] 将结构限定为树 
形(半朴素贝叶斯分类器 
可看作贝叶斯网的特例). 


其中，|蚓是贝叶斯网的参数 个数; /巧）表示描述每个参数〃所需的字 节数； 而 

m 

LL{B \ D ) = ^ ogP B ( xi ) (7.29) 

i=l 

是贝叶斯网 B 的对数似然.显然，式 (7.28) 的第一项是计算编码贝叶斯网 B 
所需的字节数，第二项是计算 B 所对应的概率分布 Pb 需多少字节来描述 
于是，学习任务就转化为一个优化任务，即寻找一个贝叶斯网 B 使评分函数 
s(B | D ) 最小. 

若/(^) = 1,即每个参数用1字节描述，则得到 AIC (Akaike Information 
Criterion ) 评分函数 

AIC(.B I D ) = \ B \ - LL{B | D ) . (7.30) 

若 f (0) = ! logm , 即每个参数用 - log m 字节描述，则得到 BIC (Bayesian 

, * 

Information Criterion ) 评分函数 

剛一-聊) . _ 

显然，若/巧）= 0,即不计算对网络进行编码的长度，则评分函数退化为负 
对数似然，相应的，学习任务退化为极大似然估计. 

不难发现，若贝叶斯网 B = ( G ,0) 的网络结构 G 固定，则评分函数 
s(B | D ) 的第一项为常数.此时，最小化 | 乃）等价于对参数 ㊀ 的极大似然 
估计.由式 (7.29) 和 (7.26) 可知，参数 0 xMi 能直接在训练数据 D 上通过经验估 
计获得，即 

^ Xi\TTi = I 7 Ti ) , (7.32) 

其中戶 D (.) 是乃上的经验分布.因此，为了最小化评分函数 I D )， 只需对网 
络结构进行搜索，而候选结构的最优参数可直接在训练集上计算得到. 

不幸的是，从所有可能的网络结构空间搜索最优贝叶斯网结构是 一 ^个 NP 
难问题，难以快速求解.有两种常用的策略能在有限时间内求得近似解：第一 
种是贪心法，例如从某个网络结构出发，每次调整一条边(增加、删除或调整方 
向 )， 直到评分函数值不再降低 为止; 第二种是通过给网络结构施加约束来削减 
搜索 空间，例如将网络结构限定为树形结构等. 





7.5 贝叶斯网 


7.5.3 推断 


161 


类别也可看作一个属性 
变量. 


更多关于推断的内容见 
第14章. 


变分推断也很常用，参 

见 14.5 节. 


更多关于马尔可夫链和 
吉布斯采样的内容参见 
14.5 节. 


贝叶斯网训练好之后就能用来回答“查询” ( query ), 即通过一些属性变量 
的观测值来推测其他属性变量的取值.例如在西瓜问题中，若我们观测到西瓜 
色泽青绿、敲声浊响、根蒂蜷缩，想知道它是否成熟、甜度如何.这样通过已 
知变量观测值来推测待查询变量的过程称为“推断” ( inference ), 已知变量观 
测值称为“证据” ( evidence ). 

最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率, 
不幸的是，这样的“精确推断”已被证明是 NP 难的 [ Cooper , 1990]; 换言之， 
当网络结点较多、连接稠密时,难以进行精确推断，此时需借助“近似推断”， 
通过降低精度要求，在有限时间内求得近似解.在现实应用中，贝叶斯网的近似 
推断常使用吉布斯采样 (Gibbs sampling ) 来完成，这是一种随机采样方法，我们 
来看看它是如何工作的. 

令 Q = { Qi ， Q 2 , …， Qn } 表示待查询变量 ， E = {^ i , E 2 ”"， E k } 为证据变 
量，已知其取值为 e = { ei ， e2 , …， efc } •目标是计算后验概率 P(Q = q | E = e ), 
其中 q = 切 1 ， 取” •” q n } 是待查询变量的一组取值.以西瓜问题为例，待查询变 
量为 Q = {好瓜，甜度}，证据变量为 E = {色泽， 敲声, 根蒂}且已知其取值为 
e = { 青绿,浊响，蜷缩}，查询的目标值是 q = { 是，高}，即这是好瓜且甜度高的 
概率有多大. 

如图 7.5 所示，吉布斯采样算法先随机产生一个与证据 E = e —致@样本 
q G 作为初始点，然后每步从当前样本出发产生下一个样本.具体来说， 在第 t 
次采样中，算法先假设¥ = q '- 1 , 然后对非证据变量逐个进行采样改变其取值， 
采样概率根据贝叶斯网 B 和其他变量的当前取值(即 Z = z ) 计算获得.假定经 
过 T 次采样得到的与 q —致的样本共有％个，则可近似估算出后验概率 

P(Q = q | E = e) - 5 - (7.33) 

JL 

实质上，吉布斯采样是在贝叶斯网所有变量的联合状态空间与证据 E = e 
一致的子空间中进行“随机漫步” (random walk ). 每一步仅依赖于前一步 
的状态，这是一个“马尔可夫链” (Markov chain ). 在一定条件下，无论从 
什么初始状态开始，马尔可夫链第 t 步的状态分布在 i 4 oo 时必收敛于一 
个平稳分布 (stationary distribution ); 对于吉布斯釆样来说，这个分布恰好是 
P ( Q|E = e ). 因此，在 r 很大时，吉布斯采样相当于根据 P(Q | E = e ) 釆样， 
从而保证了式 (7.33) 收敛于 F(Q = q | E = e ). 
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除去变量 Qi 外的其他 
变量. 


由于“似然”常基于指 
数族函数来定义，因此对 
数似然及后续 EM 迭代过 
程中一般是使用自然对数 


输入：贝叶斯网= 〈 G , ㊀ 〉； 

采样次数 r ; 

证据变量 E 及其取值 e ; 
待查询变量 Q 及其取值 q . 

过程： 


1： n q = 0 

2: q G =对 Q 随机赋初值 


3: for t = 1,2, ... ,T do 
4: for Qi E Q do 


6 

7 

8 
9 

10 


Z = E U Q \ { Qi }; 
z = eUq t ~ 1 \ {ql~ x }; 

根据 B 计算分布 P B (Qi I Z = z); 
q \ = 根据 Pb { Qi I Z = z) 采样病获 Qi 取值; 
qt = 将 qf - 1 中的 1 用 g 替换 
end for 


11 

12 

13 

14 


if q t = q then 
n q = n q + l 
end if 
end for 


输出 : P(Q = q I E = e) - ^ 


图 7.5 吉布斯采样算法 


需注意的是，由于马尔可夫链通常需很长时间才能趋于平稳分布，因此 
吉布斯釆样算法的收敛速度较慢.此外，.若贝叶斯网中存在极端概率 “0” 或 
“1”，则不能保证马尔可夫链存在平稳分布，此时吉布斯釆样会给出错误的估 
计结果. 


7.6 EM 算法 


在前面的讨论中，我们一直假设训练样本所有属性变量的值都已被观测到, 
即训练样本是“完整”的.但在现实应用中往往会遇到“不完整”的训练样 
本，例如由于西瓜的根蒂已脱落，无法看出是“蜷缩”还是“硬挺”，则训练样 
本的“根蒂”属性变量值未知.在这种存在“未观测”变量的情形下，是否仍 
能对模型参数进行估计呢？ 

未观测变量的学名是“隐变量” (latent variable ). 令 X 表示己观测变量 
集， Z 表示隐变量集， © 表示模型参数.若欲对0做极大似然估计，则应最大化 
对数似然 

LL(e I X ， Z ) = In P ( X , Z I 0) . (7.34) 

然而由于 Z 是隐变量，上式无法直接求解.此时我们可通过对 Z 计算期望，来 



7.6 EM 算法 


最大化已观测数据的对数“边际似然 ” （marginal likelihood ) 
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直译为“期望最大化算 
法”，通常直接称 EM 算 
法. 


这里仅给出 EM 算法的 
一般描述，具体例子参见 
9.4_3节. 


EM 算法的收敛性分析 
参见 [ Wii , 1983】. 

EM 算法可看作用坐标 
下降 (coordinate descent ) 
法来最大化对数似然下界 
的过程.坐标下降法参见 
附录 B .5. 


LL(e I X ) = lnP(X I 0) = lnY " P ( X , Z | ©) • (7.35) 

EM ( Expectation - Maximization ) 算法 [Dempster et al ., 1977] 是常用的估 
计参数隐变量的利器，它是一种迭代式的方法，其基本想法是：若参数 © 已知, 
则可根据训练数据推断出最优隐变量 Z 的值 （ E 步); 反之，若 Z 的值已知，则可 
方便地对参数 ㊀ 做极大似然估计 （ M 步). 

于是，以初始值为起点，对式(7.35)，可迭代执行以下步骤直至收敛： 

' •基于印推断隐变量 Z 的期望，记为 
• 基于已观测变量 x 和 z * 对参数 e 做极大似然估计，记为 © t+1 ； 

这就是 EM 算法的原型. 

进一步，若我们不是取 Z 的期望，而是基于印计算隐变量 Z 的概率分布 
P(Z I X , 00,则 EM 算法的两个步 骤是： 

• E 步 （ Expectation ): 以当前参数 ㊀ * 推断隐变量分布 P(Z | X , 0^), 并计 
算对数似然 LL(Q | X , Z ) 关于 Z 的期望 


Q (© | ©') = E Z | X ,0 t LL (9 I X , Z ) • (7.36) 

• M 步 ( Maximization ): 寻找参数最大化期望似然，即 

@ t+1 = arg max Q (0 | 0^) . (7.37) 

© 

简要来说， EM 算法使用两个步骤交替 计算： 第一步是期望 ( E ) 步，利用当 
前估计的参数值来计算对数似然的期望值;第二步是最大化 ( M ) 步，寻找能使 
E 步产生的似然期望最大化的参数值.然后，新得到的参数值重新被用于 E 步， 
……直至收敛到局部最优解. 

事实上，隐变量估计问题也可通过梯度下降等优化算法求解，但由于求和 
的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦；而 EM 算 
法则可看作一种非梯度优化方法. 
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第 7 章贝叶斯分类器 


丄 Pearl 教授因这方面的 
卓越贡献而获得2011年 
图灵奖，参见第14章. 


贝叶斯网是经典的概率 
图模型，参见第14章. 


7.7 阅读材料 

贝叶斯决策论在机器学习、模式识别等诸多关注数据分析的领域都有极 
为重要的地位.对贝叶斯定理进行近似求解，为机器学习算法的设计提供了 
一 种有效途径.为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题，朴 
素贝叶斯分类器引入了属性条件独立性假设.这个假设在现实应用中往往很 
难成立，但有趣的是，朴素贝叶斯分类器在很多情形下都能获得相当好的性能 
[Domingos and Pazzani ， 1997; Ng and Jordan , 2002] . 一 种解释是对分类任务 
来说，只需各类别的条件概率排序正确、无须精准概率值即可导致正确分类结 
果 [Domingos and Pazzani , 1997]; 另一种解释是，若属性间依赖对所有类别影 
响相同，或依赖关系的影响能相互抵消，则属性条件独立性假设在降低计算开 
销的同时不会对性能产生负面影响 [ Zhang , 2004]. 朴素贝叶斯分类器在信息检 
索领域尤为常用 [ Lewis , 1998], [McCallum and Nigam , 1998] 对其在文本分类 
中的两种常见用法进行了 比较. 

根据对属性间依赖的涉及程度，贝叶斯分类器形成了一个“谱”：朴素贝 
叶斯分类器不考虑属性间依赖性，贝叶斯网能表示任意属性间的依赖性，二者 
分别位于“谱”的两端；介于两者之间的则是一系列半朴素贝叶斯分类器，它 
们基于各种假设和约束来对属性间的部分依赖性进行建模.一般认为，半朴素 
贝叶斯分类器的研究始于 [ Kononenko , 1991]. ODE 仅考虑依赖一个父属性， 
由此形成了独依赖分类器如 TAN [Friedman et al ., 1997 ]、AODE [Webb et al ., 
2005 ]、LBR (lazy Bayesian Rule ) [Zheng and Webb , 2000] 等； M)E 则考虑最 
多依赖 A : 个父属性，由此形成了 / c 依赖分类器如 KDB [ Sahami ，1996]. NBtree 
[ Kohavi , 1996] 等. 

贝叶斯分类器 (Bayes Classifier ) 与一般意义上的“贝叶斯学习” (Bayesian 
Learning ) 有显著区别，前者是通过最大后验概率进行单点估计，后者则是进行 
分布估计.关于贝叶斯学习的内容可参阅 [ Bishop , 2006]. 

贝叶斯网为不确定学习和推断提供了基本框架，因其强大的表示能力、 
良好的可解释性而广受关注 pearl ，1988]. 贝叶斯网学习可分为结构学习和 
参数学习两部分.参数学习通常较为简单，而结构学习则被证明是 NP 难问 
题 [ Cooper , 1990; Chickering et al ., 2004], 人们为此提出了多种评分搜索方法 
[Friedman and Goldszmidt , 1996]. 贝叶斯网通常被看作生成式模型，但近年来 
也有不少关于贝叶斯网判别式学习的研究 [Grossman and Domingos , 2004]. 关 
于贝叶斯网的更多介绍可参阅 [ Jensen , 1997; Heckerman , 1998]. 

EM 算法是最常见的隐变量估计方法 5 在机器学习中有极为广泛的用途，例 
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“数据挖掘十大算法” 
还包括前几章介绍的 
C 4.5、 CART 决策树、支 
持向量机，以及后几章将 
要介绍的 AdaBoost 、 k 均 
值聚类、近邻算法等 ■ 


如常被用来学习高斯混合模型 (Gaussian mixture model , 简称 GMM ) 的参数; 
9.4 节将介 绍的& 均值聚类算法就是一个典型的 EM 算法.更多关于 EM 算法 
的分析、拓展和应用可参阅 [McLachlan and Krishnan , 2008]. 

本章介绍的朴素贝叶斯算法和 EM 算法均曾入选“数据挖掘十大算法” 
Wu et al ., 2007]. 
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第 7 章 贝叶斯分类器 


西瓜数据集 3.0 见 p.84 
的表 4.3. 


假设同先验；参见 3.4 

节. 


西瓜数据集 2.0 见 p.76 
的表 4.1. 


习题 

7.1 试使用极大似然法估算西瓜数据集 3.0 中前3个属性的类条件概率. 

7.2* 试 证明： 条件独立性假设不成立时，朴素贝叶斯分类器仍有可能产生 
最优贝叶斯分类器. 

7.3 试编程实现拉普拉斯修正的朴素贝叶斯分类器，并以西瓜数据集 3.0 
为训练集，对 P .151 “测1”样本进行判别. 

7.4 实践中使用式 (7.15) 决定分类类别时，若数据的维数非常高，则概率连 
乘 nti p ( x i I c ) 的结果通常会非常接近于 o 从而导致下溢.试述防 
止下溢的可能方案. 

T .5 试 证明： 二分类任务中两类数据满足高斯分布且方差相同时，线性判 
别分析产生贝叶斯最优分类器. 

7.6 试编程实现 AODE 分类器，并以西瓜数据集 3.0 为训练集，对 p .151 
的“测1”样本进行判别. 

7.7 给定 d 个二值属性的二分类任务，假设对于任何先验概率项的估算 
至少需 30 个样例，则在朴素贝叶斯分类器式 (7.15) 中估算先验概率项 
P ( c ) 需 30 x 2 = 60 个样例.试估计在 AODE 式 (7.23) 中估算先验概 
率项 P(c, Xi ) 所需的样例数(分别考虑最好和最坏情形). 

7.8 考虑图 7.3, 试 证明： 在同父结构中，若町的取值未知，则 x 3 JJjr 4 不成 
立；在顺序结构中， y 丄 z | x, 但 yJLz 不成立. 

7.9 以西瓜数据集 2.0 为训练集，试基于 BIC 准则构建一个贝叶斯网. 

7.10 以西瓜数据集 2.0 中属性“脐部”为隐变量，试基于 EM 算法构建一 
个贝叶斯网. 
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休息一会儿 


小故事：贝叶斯之谜 


英国皇家学会相当于英 
国科学院，皇家学会会士 
相当于科学院院士. 


1763年12月23曰，托马斯•贝叶斯 (Thomas Bayes , 
1701?—1761) 的遗产受赠者 R . Price 牧师在英国皇家学 
会宣读了贝叶斯的遗作《论机会学说中一个问题的求解》， 
其中给出了贝叶斯定理，这一天现在被当作贝叶斯定理的诞 
生曰.虽然贝叶斯定理在今天已成为概率统计最经典的内容 
之一，但贝叶斯本人却笼罩在谜团中. 



现有资料表明，贝叶斯是一位神职人员，长期担任英国坦布里奇韦尔斯地 
方教堂的牧师，他从事数学研究的目的是为了证明上帝的存在.他在1742年当 
选英国皇家学会会士，但没有记录表明他此前发表过任何科学或数学论文.他 
的提名是由皇家学会的重量级人物签署的，但为什么提名以及他为何能当选， 
至今仍是个谜.贝叶斯的研究工作和他本人在他生活的时代很少有人关注，贝 
叶斯定理出现后很快就被遗忘了，后来大数学家拉普拉斯使它重新被科学界所 
熟悉，但直到二十世纪随着统计学的广泛应用才备受瞩目.贝叶斯的出生年份 
至今也没有清楚确定，甚至关于如今广泛流传的他的画像是不是贝叶斯本人， 
也仍存在争议. 





ensemble 读音似“昂桑 
宝”而非 ‘‘因 桑宝” • 


弱学习器常指泛化性能 
略优于随机猜测的学 习器; 
例如在二分类问题上精度 
略高于50%的分类器. 


第8章集成学习 


8.1 个体与集成 

集成学习 (ensemble learning ) 通过构建并结合多个学习器来完成学习任 
务，有时也被称为多分类器系统 ( multi-classifier system ) >基于委员会的学 
习 ( committee-based learning ) 等. 

图 8.1 显示出集成学习的一般 结构： 先产生一组“个体学习 
器 ” （individual learner ), 再用某种策略将它们结合起来.个体学习器通常 
由一个现有的学习算法从训练数据产生，例如 C 4.5 决策树算法、 BP 神经网 
络算法等，此时集成中只包含同种类型的个体学习器，例如“决策树集成” 
中全是决策树，“神经网络集成”中全是神经网络，这样的集成是“同质” 
的 ( homogeneous ). 同质集成中的个体学习器亦称“基学习器” (base learner ), 
相应的学习算法称为“基学习算法” (base learning algorithm ). 集成也可包含 
不同类型的个体学习器，例如同时包含决策树和神经网络，这样的集成是“异 
质”的 ( heterogenous ). 异质集成中的个体学习器由不同的学习算法生成，这时 
就不再有基学习 算法； 相应的，个体学习器一般不称为基学习器，常称为“组件 
学习器” (component learner ) 或直接称为个体学习器. 



输出 


图 8.1 集成学习示意图 

集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的 
泛化 性能. 这对“弱学习器 ” （weak learner ) 尤为明显，因此集成学习的很多理 
论研究都是针对弱学习器进行的，而基学习器有时也被直接称为弱学习器.但 
需注意的是，虽然从理论上来说使用弱学习器集成足以获得好的性能，但在实 
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测试例1测试例2測试例3 测试例1测试例2测试例3 








⑻集成提升性能 


( b ) 集成不起作用 


( c ) 集成起负作用 


图 8 .2集成个体应“好而不同”（心表示第 i 个分类器） 

我们来做个简单的分析.考虑二分类问题 G {-1 5 +1}和真实函数/,假 
定基分类器的错误率为 e , 即对每个基分类器~有 


P (hi ( x ) ^ f ( x )) = e 


( 8 . 1 ) 


奇 


假设集成通过简单投票法结合 T 个基分类器，若有超过半数的基分类器正确. 


则集成分类就 正确: 


H { x ) = sign (^2 hi ( x ) 

\z=l 


( 8 . 2 ) 


参见习题 8 . 1 . 


假设基分类器的错误率相互独立，则由 Hoeffding 不等式可知，集成的错误 


率为 


践中出于种种考虑，例如希望使用较少的个体学习器，或是重用关于常见学习 
器的一些经验等，人们往往会使用比较强的学习器. 

在一般经验中，如果把好坏不等的东西掺到一起，那么通常结果会是比最 
坏的要好一些，比最好的要坏一些.集成学习把多个学习器结合起来，如何能获 
得比最好的单一学习器更好的性能呢？ 

考虑一个简单的 例子： 在二分类任务中，假定三个分类器在三个测试样本 
上的表现如图 8.2 所示，其中^/表示分类正确， x 表示分类错误，集成学习的结 
果通过投票法 ( voting ) 产生，即“少数服从多数”.在图 8.2( a ) 中，每个分类器 
都只有66.6%的 精度， 但集成学习却达到了 100%;在图 8.2( b ) 中，三个分类器 
没有差别，集成之后性能没有提高；在图 8.2( c ) 中，每个分类器的精度都只有 
33.3%, 集成学习的结果变得更糟.这个简单的例子显示出 •_ 要获得好的集成， 
个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器 
丈^习器至少不差于不能太坏，并且要有“多 样性” （ diversity )， 即 学习器 间具有差异. 


XXX 

1^3 

^ fn 


>> X 

> X > 
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P ( H ( x )^ f ( x )) = 





k e T ~ k 



(8.3) 


上式显示出，随着集成中个体分类器数目 r 的增大，集成的错误率将指数级下 
降,最终趋向 于零. 


然而我们必须注意到，上面的分析有一个关键 假设： 基学习器的误差相互 
独立.在现实任务中，个体学习器是为解决同一个问题训练出来的，它们显然不 
可能相互独立！事实上，个体学习器的“准确性”和“多样性”本身就存在冲 
突.一般的，准确性很高之后，要增加多样性就需牺牲准确性.事实上，如何产 
生并结合“好而不同”的个体学习器,恰是集成学习研究的核心. 


根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即 
个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器 
间不存在强依赖关系、可同时生成的并彳丁化方法；前者的代表是 Boosting , 后 
者的代表是 Bagging 和“随机森林 ” （Random Forest ). 


8.2 Boosting 

Boosting 是一族可将弱学习器提升为强学习器的算法.这族算法的工作机 
制 类似： 先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练 
样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注, 
然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学 
习器数目达到事先指定的值 r , 最终将这 r 个基学习器进行加权结合. 

Boosting 族算法最著名的代表是 AdaBoost [Freund and Schapire , 1997], 
其描述如图 8.3 所示，其中访 G {-1，+1}, /是真实函数. 

AdaBoost 算法有多种推导方式，比较容易理解的是基于“加性模 
型 ” （additive model ) ,即基学习器的线性组合 

T 

H { x ) = ^ a t h t { x ) (8.4) 

t —\ 

来最小化指数损失函数 (exponential loss function ) [Friedman et al ., 2000] 

4xp(i^ I V) = ^ v [e- f{x)H{x) ] . (8.5) 
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初始化样本权值分布 . 
基于分布认从数据集 
D 中训练出分类器 

估计心 的误差 . 

确定分类器 /it 的权重 . 

更新样本分布，其中 Z t 
是规范化因子，以确保 
Vt+i 是一个分布 . 


这里忽略了 P(f(x ) = 
1 | £C) = P(f{x) = -l\x) 
的情形 . 


替代损失函数的“一致 
性 ” 参见 6.7 节 . 


输入：训练集 _D = {(〜奶)，^，％: 
基学习算法 
训练轮数 T . 

过程： 

T>i(x) — 1/m. 

2: for f = 1,2, . • ”T do 
3: h t = 2(D,V t ); 

4: — P 7^ f (*^))5 

if e t > 0.5 then break 


(®m ， Vm)}] 


7 ： V t+1 {x) 


队 ㈤ 乂 J exp(-at): 
Zt \ exp ( a t ), 

_ T> t (x)exp(-a t f(x)h t (x)) 

8: end for 

输出： H(x) = sign t=zl 


if h t ( x ) = f ( x ) 
if h t \ x ) 7 ^ f ( x ) 


z t 



a t h t (x)^ 


图 8.3 AdaBoost 算法 


若 H ( x ) 能令指数损失函数最小化，则考虑式 (8.5) 对 H ( x ) 的偏导 


= - e ~ H ^ P ( f ( x ) = 1 I + e H ^ P ( f ( x ) = - l \ x ) , ( 8 . 6 ) 


令式 ( 8 . 6 ) 为零可解得 


H { x ) - - In 


P(/(x) = 1 卜） 


2 p ( f ( x ) = ― 1 卜）’ 


(8.7) 


因此，有 


7㈤ ） 




sisa {\ ln ¥( m ~= 


1 I x ) 


1 丨尤 X 





P(/(x) = l \ x )> P { f ( x ) 
1 ， P { f { x ) = 1 卜） < P ( f ( x ) 


arg max P ( f ( x ) ~ y \ x ) 
ye {- i , i } 


1 I x ) 
1 I x ) 


，8.8' 


这意味着 sign ( H ( x )) 达到了贝叶斯最优错误率.换言之，若指数损失函数最小 
化，则分类错误率也将最 小化； 这说明指数损失函数是分类任务原本 0 / 1 损失 
函数的一致的 ( consistent ) 替代损失函数.由于这个替代函数有更好的数学性 
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质， 例如它是连续可微函数，因此我们用它替代0/1损失函数作为优化目标. 

在 AdaBoost 算法中，第一个基分类器心是通过直接将基学习算法用于初 
始数据分布 而得； 此后迭代地生成心和％,当基分类器心基于分布产生后， 
该基分类器的权重 应使得 a t h t 最小化指数损失函数 

一 料考™ ] 

= E x ^ Vt [e~^I (/ (x) = h t ( x )) + e^I (/ ( x ) ^ h t ㈤)] 

= e ~ at P x ^ Vt (/ (x) = h t { x )) + e at P x ^ v t (/ (®) + h t (®)) 

(8.9) 


( 8 . 10 ) 


( 8 . 11 ) 


AdaBoost 算法在获得 Et -\ 之后样本分布将进行调整，使下一轮的基学习 
器~能纠正 H t - i 的一些错误.理想的~能纠正历__1的全部错误，即最小化 


e _at (1 - e t ) + e at e t 


其中 Q = P X ^ V t ( ht (^) 7^ f ( X ))' 考虑指数损失函数的导数 


d^expi^t^t ^t) 




don 


e~ at (l — et ) + e at et 


令式 (8.10) 为零可解得 


Q；^ = — In 


1 — ej 


这恰是图 8.3 中算法第 6 行的分类器权重更新公式. 


4 XP (压 -1 ^ h t \ V )= ㈤(执 - 1 ㈦认 ㈤)] 

_ Ea ； 〜 x>[e- ，㈤历〜㈤] 


( 8 . 12 ) 


注意到 f 2 { x ) = h 2 t ( x ) = 1,式 (8.12) 可使用 e ~ f ^ h ^ 的泰勒展式近似为 


exp 


( H t -\ + h t \ V ) E Xr 


e 




f 2 (x)hf(x) 


2 




( 1 _ f { x ) h t { x ) + 


2 


(8.13) 


于是，理想的基学习器 


ht ( x ) = argmin4xp(^t-i + h \ V ) 


h 
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arg minEa； 〜 p 
h 

arg maxEa ；〜 x > 
h ^ 


arg maxEa ； 〜幻 
h 


e -f( X )H t ^{ X ) f 丄 —/ ㈤ 啦 ) + * 


e - 八咖 - 1 ㈤/㈤㈣ 
e -f(x)H t -i(x) 


㈦ 历 -i ㈤] 


f ( x ) h ( x ) 


注意到 ^ v [ e - f { x ) Ht -^ x ) ] 是一个常数.令 A 表示一个分布 


A ㈤ 




3E® 〜 ㈤ 历 -1(®): 


则根据数学期望的定义，这等价于令 


h t ( x ) = arg maxEa；^p 
h 


e -f(x)H t -i(x) 

E® 〜 x> [e - *^ ( x ) H t-i(x) 


/ ㈤"㈤ 


aigmaxE x ^ T ， t [ f ( x ) h ( x )]. 
h 


由 /(*), h { x ) G {—1,+1}， 有 


(8.14) 


(8.15) 


(8.16) 


f ( x ) h { x ) = 1 -21(/(®) ^ h ( x )) 


(8.17) 


则理想的基学习器 


h t { x ) = arg min Em 〜 ^ / i ( a ?))]. 
h 


(8.18) 


由此 可见， 理想的心将在 分布巩 下蕞小 化分类误差.因此，弱分类器将基于分 
布 V t 来训练，且针对 Pf 的分类误差应小于 0.5. 这在一定程度上类似“残差逼 
近”的思想.考虑到 A 和 V t + i 的关系，有 


; t+i 


㈤ 


T > ( x ) e 


-f(x)H t (x) 


E xr ^ v [ e -/ ㈨ 脉) ] 

p (£C) e ~f( x ) H t-i(x) e -f(x)a t ht(x) 


. Eg ；, 




e _ 


■f(x)H t (xY 




(8.19) 




图 8.4 西瓜数据集 3.0 a 上 AdaBoost 集成规模为3、5、11时，集成(红色)与基学习 
器(黑色)的分类边界. 、 


0.2 0.4 0.6 0.8 

密度 

( a ) 3个基学习器 



0.2 0.4 0.6 0.8 

密度 

( b ) 5个基学习器 



0.2 0.4 0.6 0.8 

密度 

(C) 11个基学习器 


8.2 Boostin 


偏差/方差参见 2.5 节. 

决策树桩即单层决策树, 
参见 4.3 节. 


集成的规模指集成中包 
含的个体学习器数目. 


这恰是图 8.3 中算法第7行的样本分布更新公式. 

于是，由式 (8.11) 和 (8.19) 可见，我们从基于加性模型迭代式优化指数损失 
函数的角度推导出了图 8.3 的 AdaBoost 算法. 

Boosting 算法要求基学习器能对特定的数据分布进行学习，这可通过“重 
赋权法” （ re - weighting ) 实施，即在训练过程的每一轮中，根据样本分布为每个 
训练样本重新赋予一个权重.对无法接受带权样本的基学习算法，则可通过 
“重采样法” （ re - sampling ) 来处理，即在每一轮学习中，根据样本分布对训练 
集重新进行釆样，再用重采样而得的样本集对基学习器进行训练. 一 般而言，这 
两种做法没有显著的优劣差别.需注意的是， Boosting 算法在训练的每一轮都 
要检查当前生成的基学习器是否满足基本条件(例如图 8.3 的第5行，检查当前 
基分类器是否是比随机猜测好)， 一旦 条件不满足，则当前基学习器即被抛弃， 
且学习过程停止.在此种情形下，初始设置的学习轮数 T 也许还远未达到，可能 
导致最终集成中只包含很少的基学习器而性能不佳.若釆用“重采样法”，则 
可获得“重启动”机会以避免训练过程过早停止 [Kohavi and Wolpert , 1996], 
即在抛弃不满足条件的当前基学习器之后，可根据当前分布重新对训练样本进 
行采样，再基于新的采样结果重新训练出基学习器，从而使得学习过程可以持 
续到预设的 r 轮完成. 

从偏差-方差分解的角度看， Boosting 主要关注降低偏差，因此 Boosting 
能基于泛化性能相当弱的学习器构建出很强的集成.我们以决策树粧为基学习 
器，在表 4.5 的西瓜数据集 3.0 a 上运行 AdaBoost 算法，不同规模 ( size ) 的集成 
及其基学习器所对应的分类边界如图 8.4 所示. 



6 4 
0 . 0 . 
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Bagging 这个名字是由 
Bootstrap AGGregatING 缩 

写而来. 


即每个基学习器使用相 
同权重的投票、平均. 


V bs 是自助采样产生的 
样本分布. 


8.3 Bagging 与随机森林 

由 8.1 节可知，欲得到泛化性能强的集成，集成中的个体学习器应尽可能相 
互独立；虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能 
具有较大的差异.给定一个训练数据集， 一 种可能的做法是对训练样本进行采 
样，产生出若干个不同的子集，再从每个数据子集中训练出一个基学习器.这 
样，由于训练数据不同，我们获得的基学习器可望具有比较大的差异.然而，为 
获得好的集成，我们同时还希望个体学习器不能太差.如果采样出的每个子集 
都完全不同，则每个基学习器只用到了一小部分训练数据，甚至不足以进行有 
效学习，这显然无法确保产生出比较好的基学习器.为解决这个问题，我们可考 
虑使用相互有交叠的采样子集. 

8.3.1 Bagging 

Bagging [ Breiman , 1996 a ] 是并行式集成学习方法最著名的代表.从名字即 
可看出，它直接基于我们在 2.2.3 节介绍过的自助釆样法 (bootstrap sampling ). 
给定包含 m 个样本的数据集，我们先随机取出一个样本放入采样集中，再把该 
样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过 m 
次随机釆样操作，我们得到含 m 个样本的采样集，初始训练集中有的样本在采 
样集里多次出现，有的则从未出现.由式 (2.1) 可知，初始训练集中约有63.2% 
的样本出现在采样集中. 

照这样，我们可采样出 T 个含 m 个训练样本的采样集，然后基于每个釆样 
集训练出一个基学习器，再将这些基学习器进行结合.这就是 Bagging 的基本 
流程.在对预测输出进行结合时， Bagging 通常对分类任务使用简单投票法，对 
回归任务使用简单平均法.若分类预测时出现两个类收到同样票数的情形，则 
最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最 
终胜者. Bagging 的算法描述如图 8.5 所示. 


输入： 训练集 D = {(® i , 2/ i ), (® 2 ,2/2), • • • , (X m , Vm )}； 
基学习算法 
训 练轮数 r . 

过程： 

1: for t = 1,2,…， T do 
2: h t = 2 ( D , Vb s ) 

3 ： end for 

输出： H(x)-- = argmaxE t r =1 I(^W = y) 

yey 


图 8.5 Bagging 算法 
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为处理多分类或回归任 
务 ， Ada Boost 需进行修改; 
目前已有适用的变体算法 
[ Zhou , 2012]. 


包外估计参见 2.2.3 节. 


偏差/方差参见 2.5 节， 

关于样本扰动，参见 
8.5.3 节. 


假定基学习器的计算复杂度为 0( m )， 则 Bagging 的复杂度大致为 
T (0 ( m ) + 0( 5 )), 考虑到采样与投票/平均过程的复杂度 0(4 很小，而 T 
通常是一个不太大的常数，因此，训练一个 Bagging 集成与直接使用基学习算 
法训练一个学习器的复杂度同阶，这说明 Bagging 是一个很高效的集成学习算 
法，另外，与标准 AdaBoost 只适用于二分类任务不同， Bagging 能不经修改地 
用于多分类、回归等任务. 

值得一提的是，自助釆样过程还给 Bagging 带来了另一个 优点： 由于每个 
基学习器只使用了初始训练集中约63.2%的样本，剩下约36.8%的样本可用作 
验证集来对泛化性能进行“包外估计” （ out - of-bag estimate ) [ Breiman , 1996 a ; 
Wolpert and Macready ，1999]. 为此需记录每个基学习器所使用的训练样本. 
不妨令 D t 表示 h t 实际使用的训练样本集，令 H oob (x) 表示对样本$的包外预 
测，即仅考虑那些未使用$训练的基学习器在$上的预测，有 

T 

H ooh ( x ) = argmax = y ) - l(x ^ D t ) , (8.20) 

y^y +_i 

则 Bagging 泛化误差的包外估计为 

e °° h = \ E ^ y ) . (8.21) 

(x,y)eD 

事实上，包外样本还有许多其他用途.例如当基学习器是决策树时，可使用 
包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练 
样本结点的 处理； 当基学习器是神经网络时，可使用包外样本来辅助早期停止 
以减小过拟合风险. 

从偏差-方差分解的角度看， Bagging 主要关注降低方差，因此它在不剪枝 
决策树、神经网络等易受样本扰动的学习器上效用更为明显.我们以基于信息 
增益划分的决策树为基学习器，在表 4.5 的西瓜数据集 3.0 a 上运行 Bagging 算 
法，不同规模的集成及其基学习器所对应的分类边界如图 8.6 所示. 

8.3.2 随机森林 

随机森林 (Random Forest , 简称 RF ) [ Breiman , 2 001 a ] 是 Bagging 的一个 
扩展变体 . RF 在以决策树为基学习器构建 Bagging 集成的基础上，进一步在 
决策树的训练过程中引入了随机属性选择.具体来说，传统决策树在选择划分 
属性时是在当前结点的属性集合(假定有 d 个属性)中选择一个最优 属性； 而在 
RF 中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含友 
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10 1 10 2 
基分类器数量 

( a ) glass 数据集 


10 " 


0.028 

0.024 

资 0.020 

$ 0.016 
¥ 

i 0.012 
0.008 


0.004 


10 ° 



10 1 10 2 
基分类器数量 


I0 i 


( b ) auto-mpg 数据集 


个属性的子集，然后再从这个子集中选择一个最优属性用于划分.这里的参数 
k 控制了随机性的引入程度： 若令 k = d ， 则基决策树的构建与传统决策树 相同; 
若令 k = l ， 则是随机选择一个属性用于 划分； 一般情况下，推荐值 A : 二 log 2 d 
[ Breiman , 2001 a ]. 

随机森林简单、容易实现、计算开销小，令人惊奇的是，它在很多现实任 
务中展现出强大的性能，被誉为“代表集成学习技术水平的方法”.可以看出， 
随机森林对 Bagging 只做了小改动，但是与 Bagging 中基学习器的“多样性” 
仅通过样本扰动(通过对初始训练集采样)而来不同，随机森林中基学习器的多 
样性不仅来自样本扰动，还来自属性扰动，这就使得最终集成的泛化性能可通 

等，参见 8.5.3 T. 

过个体学习器之间差异度的增加而进一步提升. 

随机森林的收敛性与 Bagging 相似.如图 8.7 所示，随机森林的起始性能 
往往相对较差，特别是在集成中只包含一个基学习器时.这很容易理解，因为通 
过引入属性扰动，随机森林中个体学习器的性能往往有所降低.然而，随着个体 


0 0.2 0.4 0.6 0.8 0 0.2 0.4 0.6 0.8 

密度 密度 

(a) 3个基学习器 （ b ) 5个基学习器 

图 8.6 西瓜数据集 3.0 a 上 Bagging 集成规模为3、5、 
器(黑色)的分类边界. 
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图 8.7 在两个 UCI 数据上，集成规模对随机森林与 Bagging 的影响 
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学习器数目的增加，随机森林通常会收敛到更低的泛化误差.值得一提的是，随 
机森林的训练效率常优于 Bagging , 因为在个体决策树的构建过程中 ， Bagging 
使用的是“确定型”决策树，在选择划分属性时要对结点的所有属性进行考察， 
而随机森林使用的“随机型”决策树则只需考察一个属性子集. 

8.4 结合策略 

学习器结合可能会从三个方面带来好处 [ Dietterich , 2000]: 首先，从统计 
的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上 
达到同等性能，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多 
个学习器则会减小这一 风险； 第二，从计算的方面来看，学习算法往往会陷入局 
部极小，有的局部极小点所对应的泛化性能可能很糟糕，而通过多次运行之后 
进行结合，可降低陷入糟糕局部极小点的 风险； 第三，从表示的方面来看，某些 
学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用 
单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大， 
有可能学得更好的近似.图 8.8 给出了一个直观示意图. 



⑻统计的原因 （ b ) 计算的原因 （ c ) 表示的原因 


图 8.8 学习器结合可能从三个方面带来好处 [ Dietterich , 2000] 

假定集成包含： T 个基学习器 { hiM ，...， h T }， 其中~在示例尤上的输出 
为 hi ( x ). 本节介绍几 种对心 进行结合的常见策略. 

8.4.1 平均法 

对数值型输出 hi(x) G R , 最常见的结合策略是使用平均法 (averaging). 



= 〒 J2hi(x). 


( 8 . 22 ) 
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加权平均法 (weighted averaging ) 


Breiman [1996 b ] 在研究 
Stacking 回归时发现，必须 
使用非负权重才能确保集 
成性能优于单一最佳个体 
学习器，因此在集成学习 
中一般对学习器的权重施 
以非负约束. 


例如估计出个体学习器 
的误差，然后令权重大小 
与误差大小成反比. 


第8章集成学习 


H { x ) = Y ^ mhi { x ) . (8.23) 

i=l .. 

其中叫是个体学习器~的权重，通常要求^ > 0, E ^ = 1- 
' 2=1 

显然，简单平均法是加权平均法令叫= 1/ T 的特例.加权平均法在二十世 
纪五十年代已被广泛使用 [ Markowitz , 1952], [Perrone and Cooper , 1993] 正式 
将其用于集成学习.它在集成学习中具有特别的意义，集成学习中的各种结合 
方法都可视为其特例或变体.事实上 5 加权平均法可认为是集成学习研究的基 
本出发点，对给定的基学习器，不同的集成学习方法可视为通过不同的方式来 
确定加权平均法中的基学习器权重. 


加权平均法的权重一般是从训练数据中学习而得，现实任务中的训练样本 
通常不充分或存在噪声，这将使得学出的权重不完全可靠.尤其是对规模比较 
大的集成来说，要学习的权重比较多，较容易导致过拟合.因此，实验和应用均 
显示出，加权平均法未必一定优于简单平均法 [Xu et al .， 1992; Ho et al ., 1994; 
Kittler et al ., 1998]. 一般而言，在个体学习器性能相差较大时宜： f 吏用加权平均 
法，而在个体学习器性能相近时宜使用简单平均法. 

8.4.2 投票法 


对分类任务来说，学习器~将从类别标记集合中预测出一 
个标记，最常见的结合棄略是使用投票法 ( voting ). 为便于讨论，我们将~在样 
本①上的预测输出表示为一个 7 V 维向量 { hj ( x ); hf { x )), 其中 

是 hi 在类别标记 q 上的输出. 


• 绝对多数投票法 (majority voting ) 

if EMN 〉 0.5 E E < ㈤ ; 

/i <*mmwwwww 1 mm mm 1 fk I 

t*—— X 丄 JL 

otherwise , 

即若某标记得票过半数，则预测为该 标记； 否则拒绝预测. 

相对多数投票法 (plurality voting ) 


H ( x ) 


c j ， 

reject ， 


H(x) 


"arg max Y2j=i H ( x ) 


(8.24) 




(8.25) 




8.4 结合策略 


183 


“多数投票法”的英文 
术语使用不太一致：有文 
献称为 majority voting , 也 
有直接称为 voting . 


例如异质集成中不同类 
型的个体学习器. 


Stacking 本身是一种著 
名的集成学习方法，且有 
不少集成学习算法可视为 
其变体或特例.它也可看 
作一种特殊的结合策略, 
因此本书在此介绍. 


即预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取 

■ ..• 

• 加权投票法 (weighted voting ) 


iJ(a?) - c aTgmax j2[ =1 wihi(x) . (8.26) 

3 

与加权平均法类似，抑是 ~ 的权重，通常 Wi ^ 0, 全 Wi = 1. 

i=l 

标准的绝对多数投票法 (8.24) 提供了 “拒绝预测”选项，这在可靠性要求 
较高的学习任务中是一个很好的机制.但若学习任务要求必须提供预测结果， 
则绝对多数投票法将退化为相对多数投票法.因此，在不允许拒绝预测的任务 
中，绝对多数、相对多数投票法统称为“多数投票法”. 

式 (8.24) 〜 (8.26) 没有限制个体学习器输出值的类型.在现实任务中，不同 
类型个体学习器可能产生不同类型的 gOrO 值，常见的有： 

-类标记 : e {0, 1}，若~将样本 o ； 预测为类别 q 则取值为1,否则为 
0. 使用类标记的投票亦称“硬投票” (hard voting ). 

-类 概率： h{(x) e [0,1], 相当于对后验概率 P( Cj | cc ) 的一个估计.使用类 
概率的投票亦称“软投票” (soft voting ). 

不同类型的 hl ( x ) 值不能混用.对一些能在预测出类别标记的同时产生 
分类置信度的学习器，其分类置信度可转化为类概率使用.若此类值未进 
行规范化，例如支持向量机的分类间隔值，则必须使用一些技术如 Platt 缩 
放 (Platt scaling ) [ Platt , 2000]、 等 分回归 (isotonic regression ) [Zadrozny and 
Elkan , 2001] 等进行“校准” （ calibration ) 后才能作为类概率使用.有趣的是, 
虽然分类器估计出的类概率值一般都不太准确，但基于类概率进行结合却往往 
比直接基于类标记进行结合性能更好.需注意的是，若基学习器的类型不同，则 
其类概率值不能直接进行比较；在此种情形下，通常可将类概率输出转化为类 
标记输出(例如将类概率输出最大的 hj ( x ) 设为1，其他设为 0) 然后再投票. 

8.4.3 学习法 

当训练数据很多时，一种更为强大的结合策略是使用“学习法”，即通过 
另一个学习器来进行结合 . Stacking [ Wolpert , 1992; Breiman , 1996 b ] 是学习法 
的典型代表.这里我们把个体学习器称为初级学习器，用于结合的学习器称为 
次级学习器或元学习器 ( meta - learner ). 
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初级学习器也可是同质 
的. 


使用初级学习算法 £* 
产生初级学习器 

生成次级训练集. 


在炊上用次级学习算 
法£产生次级学习器 


MLR 是基于线性回归的 
分类器，它对每个类分别 
进行线性回归，属于该类 
的训练样例所对应的输出 
被置为1,其他类置为0; 
测试示例将被分给输出值 
最大的类. 

WEKA 中的 StackingC 

算法就是这样实现的. 


Stacking 先从初始数据集训练出初级学习器 5 然后“生成” 一个新数据集 
用于训练次级学习器.在这个新数据集中，初级学习器的输出被当作样例输入 
特征 5 而初始样本的标记仍被当作样例标记. Stacking 的算法描述如图 8.9 所 
示，这里我们假定初级学习器使用不同学习算法产生，即初级集成是异质的. 


输入：训练集 D = {(cci, i/i), (x 2 ,y2), • • • , {xm,y m )}] 
初级学习算法 
次级学习算法 £. 

过程： 

1 ： for t = 1,2, ... ,T do 
2: h t = £t(D); 

3: end for 

4: D f = 0; 

5 ： for i = 1,2, …， m do 
6: for t = 1,2,..., T do 

7 : Zn = hi 5 

8 ： end for 

9: D f = D r U ((zn,Zi 2 ,..., z iT ),yi )； 

10: end for 

11: ^ = £P0 ； 

输出： H(x) = h / (h 1 (x),h 2 {x) 1 .,. , h T (x )) 


图 8.9 Stacking 算法 


在训练阶段，次级训练集是利用初级学习器产生的，若直接用初级学习器 
的训练集来产生次级训练集，则过 拟合风 险会比 较大； 因此，一般是通过使用交 
叉验证或留一法这样的方式，用训练初级学习器未使用的样本来产生次级学习 
器的训练样本.以 A : 折交叉验证 为例， 初始 训练集 D 被随机划分为个大小相 
似的集合 D u D 2 , …， D k . 令 Dj - 和= D \ Dj . 分别表示第 j 折的测试集和 
训练集.给定 T 个初级学习算法，初级学习器通过在上使用第 t 个学 
习算法而得.对中每个样本&，令命= h ^( Xi ), 则由心 所产生的次级训 
练样例的示例部分为 A = ( z il ； z i 2 ;..\; z iT ), 标记部 分为伽 于是， 在整 个交叉 
验证过程结束后，从这 r 个初级学习器产生的次级训练集是 iT = {( zi . yi )}^ 
然后 jy 将用于训练次级学习器. 

次级学习器的输入属性表示和次级学习算法对 Stacking 集成的泛化性能 
有很大影响.有研究表明，将初级学习器的输出类概率作为次级学习器的输入 
属性，用多响应线性回归 ( Multi-response Linear Regression , 简称 MLR ) 作为 
次级学习算法效果较好 [Ting and Witten , 1999]，在 MLR 中使用不同的属性 
集更佳 [ Seewald , 2002]. 
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贝叶斯模型平均 (Bayes Model Averaging , 简称 BMA ) 基于后验概率来为 
不同模型赋予权重，可视为加权平均法的一种特殊实现. [ Claxke ，2003] 对 
Stacking 和 BMA 进行了比较.理论上来说，若数据生成模型恰在当前考虑的 
模型中，且数据噪声很少，则 BMA 不差于 Stacking ; 然而，在现实应用中无法 
确保数据生成模型一定在当前考虑的模型中，甚至可能难以用当前考虑的模型 
来进行近似，因此， Stacking 通常优于 BMA , 因为其鲁棒性比 BMA 更好，而且 
BMA 对模型近似误差非常敏感. 

8.5 多样性 
8.5.1 误 差-分歧分解 

8.1 节提到，欲构建泛化能力强的集成，个体学习器应“好而不同”.现在 
我们来做一个简单的理论分析. 

假定我们用个体学习器 h u h 2l ..., h T 通过加权平均法 (8.23) 结合产生的 
集成来完成回归学习任务/ : ^ M . 对示例％定义学习器心的“分 

歧” （ ambiguity ) 为 

A(hi | x ) = ( hi ( x ) — H ( x )) 2 , (8.27) 

则集成的“分歧”是 

A(h I x ) = WiA(hi I x ) 

= Wi ( hi ^ —丑（尤） ) 2 . (8.28) 

显然，这里的“分歧”项表征了个体学习器在样本 ® 上的不一致性，即在 
一定程度上反映了个体学习器的多样性.个体学习器~和集成 丑的平 方误差 
分别为 

E ( h { | x ) = ( f ( x ) — hi ( x )) 2 , (8.29) 

E(H I x ) = ( f ( x ) - H ( x)f . (8.30) 

令萬 /z I 4 聊 \ x ) 表示个体学习器误差的加权均值，有 

T 

A(h | x ) 〉： WjE(hj I x ) — E(H | x ) 

i=l 

= E{h I x ) - E(H I x ) . (8.31) 
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这里我们用五 i 和 Ai 简 
化表示 E ( hi ) 和 A ( hi ). 


这里我们用 E 简化表示 
E(H )： 


亦称“差异性度量 


式 (8.31) 对所有样本 t 均成立，令表示样本的概率密度，则在全样本 


上有 


T rp 

/» JL p, a 

/ A(hi I x ) p ( x)dx = (hi I x ) p ( x)dx — / E(H I x ) p ( x)d 

i=l 』 2=1 ^ 』 


类似的，个体学习器 ~ 在全样本上的泛化误差和分歧项分别为 


(8.32) 


Ei = E(hi [ x ) p ( x)di 


(8.33) 


集成的泛化误差为 


Ai = A(hi I x ) p ( x)dx 


E = E ( H \ x ) p { x)dx 


(8.34； 


(8.35； 


将式 (8.33) 〜 (8.35) 代入式 (8.32)， 再令忑 = Z i =1 喊 表示个体学习器泛 
化误差的加权均值 ， A = Y , J=i mAi 表示个体学习器的加权分歧值，有 


E = E — A . (8.36) 

式 (8.36) 这个漂亮的式子明确提 示出： 个体学习器准确性越高、多样性越 
大，则集成越好.上面这个分析首先由 [Krogh and Vedelsby , 1995] 给出，称为 
“误差一分歧分解” ( error-ambiguity decomposition ). 

至此，读者可能很 高兴： 我们直接把忑-作为优化目标来求解，不就能 
得到最优的集成了？遗憾的是，在现实任务中很难直接对忑进行优化，不 
仅由于它们是定义在整个样本空间上，还由于 Z 不是一个可直接操作的多样性 
度量，它仅在集成构造好之后才能进行估计.此外需注意的是，上面的推导过程 
只适用于回归学习，难以直接推广到分类学习任务上去. 

8.5.2 多样性度量 

顾名思义，多—性度量 (diversity measure ) 是用于度量集成中个体分类器的 
多样性，即估算个体学习器的多样化程度.典型做法是考虑个体分类器的两两 
相似/不相似性. 
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参见 2.3.2 节混淆矩阵. 


给定数据集 D = {{ xi , y {), ( a ? 2 , 2 / 2 ), . . . , (« m , Vm )}, 对二分类任务，汸 e 
{— 1 5 +1},分类器〜与 /ij 的预测结果列联表 (contingency table ) 为 



hi 二 + 1 ~ = — 1 

hj ~ H 1 
hj = —1 

CL C 

b d 


其中， a 轰示 hi 与 hj 均预测为正类的样本数目； 6、 c 、 d 含义由此类推; 
a^b + c^d = m . 基于这个列联表，下面给出一些常见的多样性度量. 


不合度量 (disagreement measure ) 


b-\-c 

diSij = - • 

m 

(8.37) 

disij 的值域为 [0 ? 1]. 值越大则多样性越大. 


相关系数 (correlation coefficient ) 


ad — be 

r\ * . .I, 

13 >/(a + 6) (a + c ) (c + d )( b - {- d ) 

(8.38) 


Pij 的值域为[-1， 1 ]. 若 hi 与 hj 无关，则值为 Q •，若 hi 与 hj 正相关则值 


为正，否则为负. 

• Q - 统计量 ( Q - statistic ) 


Qij 


ad — be 
ad + be 


Qij 与相关系数的符号相同，且 \ Qij \ ^ \ Pij 
托-统计量 (^- statistic ) 

P 1 -P 2 
^ - • 

1 -P2 


(8.39) 


(8.40) 


其中，仍是两个分类器取得一致的概率; p 2 是两个分类器偶然达成一致 
的概率，它们可由数据集 P 估算： 


Pi 


P2 




(ci + 6) (a + c ) (c + <i) (6 + (i) 


(8.41) 

(8.42) 


若分类器 & 与 hj 在 D 上完全一致，则二1;若它们仅是偶然达成一致, 
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Q |Q| __ , _ , _ , _ , _ Q ] QL . _ , _ , _ , _ 

•一 0.2 0 0.2 0.4 0.6 0.8 •— 0.2 0 0.2 0.4 0.6 0.8 

K K 

( a ) AdaBoost 集成 （ b ) Bagging 集成 

图 8.10 在 UCI 数据集 tic - tac - toe 上的心误差图.每个集成含50棵 C 4.5 决策树 

8.5.3 多样性增强 

在集成学习中需有效地生成多样性大的个体学习器.与简单地直接用初始 
数据训练出个体学习器相比，如何增强多样性呢？ 一般思路是在学习过程中引 
入随机性，常见做法主要是对数据样本、输入属性、输出表示、算法参数进行 
扰动. 

• 数据样本扰动 

给定初始数据集，可从中产生出不同的数据子集，再利用不同的数据子集 
训练出不同的个体学习器.数据样本扰动通常是基于采样法，例如在 Bagging 
中使用自助采样，在 AdaBoost 中使用序列采样.此类做法简单高效，使用最 
广.对很多常见的基学习器，例如决策树、神经网络等，训练样本稍加变化就会 
导致学习器有显著变动，数据样本扰动法对这样的“不稳定基学习器”很有效; 
然而，有一些基学习器对数据样本的扰动不敏感，例如线性学习器、支持向量 
机、朴素贝叶斯、近邻学习器等，这样的基学习器称为稳定基学习器 (stable 
base learner ), 对此类基学习器进行集成往往需使用输入属性扰动等其他机制. 


则 k = 0. ^通常为非负值， 仅在 hi 与 hj 达成一致的概率甚至低于偶然 
性的情况下取负值. 

以上介绍的都是“成对型” （ pairwise ) 多样性度量，它们可以容易地通过2 
维图绘制出来.例如著名的误差图”，就是将每一对分类器作为图上的一 
个点，横坐标是这对分类器的^值，纵坐标是它们的平均误差，图 8.10 给出了 
一个例子.显然，数据点云的位置越高，则个体分类器准确性 越低； 点云的位置 
越靠右，则个体学习器的多样性越小. 
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• 输入属性扰动 
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子空间一般指从初始的 
高维属性空间投影产生的 
低维属性空间，描述低维 
空间的属性是通过初始属 
性投影变换而得，未必是 
初始属性.参见第10章. 


d ' 小于初始属性数 d . 


: Ft 包含/个随机选取 
的属性，仅保留乃中 
的属性. 


ECOC 参见3‘5节. 


训练样本通常由一组属性描述，不同的“子空间” ( subspace , 即属性子 
集)提供了观察数据的不同视角.显然，从不同子空间训练出的个体学习器必然 
有所不同.著名的随机子空间 (random subspace ) 算法 [ Ho , 1998] 就依赖于输入 
属性扰动，该算法从初始属性集中抽取出若干个属性子集，再基于每个属性子 
集训练一个基学习器，算法描述如图 8.11 所示.对包含大量冗余属性的数据， 
在子空间中训练个体学习器不仅能产生多样性大的个体，还会因属性数的减少 
而大幅节省时间开销，同时，由于冗余属性多，减少一些属性后训练出的个体学 
习器也不至于太差.若数据只包含少量属性，或者冗余属性很少，则不宜使用输 
入属性扰动法. 


输入： 训练集 = {( x u y 1 ),( x 2 , y 2) r - 5 Om ， ym )}; 
基学习算法£; 

基学习器数 T ; 

子空间属性数 

过程： 

1 ： for t = 1 ， 2,…， T do 
2 : = 

3: D t = Map jr t (D) 

4 ： h t = £(A) 

5 ： end for 

输出： H { x ) — argmax Ylt=i ^ (^t (Mapjp- ( a ;)) = y ) 
_ yey ~_ 

图 8.11 随机于空间算法 


• 输出表不扰动 

此类做法的基本思路是对输出表示进行操纵以增强多样性.可对训练样本 
的类标记稍作变动，如“翻转法 ” （Flipping Output ) [ Breiman , 2000] 随机改变 
一 些训练样本的 标记； 也可对输出表示进行转化，如“输出调制法” (Output 
Smearing ) [ Breiman , 2000] 将分类输出转化为回归输出后构建个体学 习器; 
还可将原任务拆解为多个可同时求解的子任务，如 ECOC 法 [Dietterich and 
Bakiri ，1995] 利用纠错输出码将多分类任务拆解为一系列二分类任务来训练基 
学习器. 

• 算法参数扰动 

基学习算法一般都有参数需进行设置，例如神经网络的隐层神经元数、初 
始连接权值等，通过随机设置不同的参数，往往可产生差别较大的个体学习器. 
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这个现象的严格表述是 
“为什么 Ada Boost 在训 
练误差达到零之后继续训 
练仍能提高泛化性 能”； 
若一直训练下去，过拟合 
最终仍会出现. 


例如“负相关法 ” （Negative Correlation ) [Liu and Yao , 1999] 显式地通过正则 
化项来强制个体神经网络使用不同的参数.对参数较少的算法，可通过将其学 
习过程中某些环节用其他类似方式代替，从而达到扰动的目的，例如可将决策 
树使用的属性选择机制替换成其他的属性选择机制.值得指出的是，使用单一 
学习器时通常需使用交叉验证等方法来确定参数值 5 这事实上已使用了不同参 
数训练出多个学习器，只不过最终仅选择其中一个学习器进行使用，而集成学 
习则相当于把这些学习器都利用 起来； 由此也可看出，集成学习技术的实际计 
算开销并不比使用单一学习器大很多. 


不同的多样性增强机制可同时使用，例如 8.3.2 节介绍的随机森林中同 
时使用了数据样本扰动和输入属性扰动，有些方法甚至同时使用了更多机制 
[ Zhou , 2012]. 

8.6 阅读材料 

集成学习方面的主要推荐读物是 [ Zhou , 2012]，本章提及的所有内容在 
该书中都有更深入详细的介绍. [ Kuncheva , 2004; Rokach , 2010 b ] 可供参考. 
[Schapire and Freund , 2012] 则是专门关于 Boosting 的著作. 

Boosting 源于 [ Schapire , 1990] 对 [Kearns and Valiant , 1989] 提出的“弱 
学习是否等价于强学习”这个重要理论问题的构造性证明.最初的 Boosting 
算法仅有理论意义，经数年努力后 [Freund and Schapire , 1997] 提出 AdaBoost ， 
并因 此获得理论计算机科学方面的重要奖项——哥德尔奖.不同集成学习方 
法的工作机理和理论性质往往有显著不同，例如从偏差-方差分解的角度看， 
Boosting 主要关注降低偏差，而 Bagging 主要关注降低 方差 . MultiBoosting 
[ Webb ，2000] 等方法尝试将二者的优点加以结合.关于 Boosting 和 Bagging 已 
有很多理论研究结果，可参阅 [ Zhou , 2012] 第2 〜 3章. 

8.2 节给出的 AdaBoost 推导源于“统计视角” (statistical view ) [ Fried ¬ 
man et al ., 2000], 此派理论认为 AdaBoost 实质上是基于加性模型 (additive 
model ) 以类似牛顿迭代法来优化指数损失函数.受此启发，通过将迭代优化过 
程替换为其他优化方法，产生了 GradientBoosting [ Friedman , 2001] > LPBoost 
[Demiriz et al ., 2008] 等变体算法.然而，这派理论产生的推 i 爸与 AdaBoost 实际 
行为有相当大的差别 [Mease and Wyner , 2008], 尤其是它不能解释 AdaBoost 
为什么没有过拟合这个重要现象，因此不少人认为，统计视角本身虽很有意义， 
但其阐释的是一个与 AdaBoost 相似的学习过程而并非 AdaBoost 本身.“间 
隔理论 ” （margin theory ) [Schapire et al ., 1998] 能直观地解释这个重要现象， 
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但过去15年中一直存有争论，直到最近的研究结果使它最终得以确立，并对新 
型学习方法的设计给出了启示；相关内容可参阅 [ Zhou , 2014]. 

本章仅介绍了最基本的几种结合方法，常见的还有基于 D - S 证据理论的方 
法、动态分类器选择、混合专家 (mixture of experts ) 等.本章仅介绍了成对型 
多样性 度量 . [Kuncheva and Whitaker , 2003; Tang et al ., 2006] 显示出，现有 
多样性度量都存在显著缺陷.如何理解多样性，被认为是集成学习中的圣杯问 
题.关于结合方法和多样性方面的内容，可参阅 [ Zhou , 2012] 第4〜5章. 


对并行化集成的修剪亦 
称“选择性集成” （ selec ¬ 
tive ensemble ), 但现在一 
般将选择性集成用作集成 
修剪的同义语，亦称“集 
成选择” （ensemble selec ¬ 
tion ). 


在集成产生之后再试图通过去除一些个体学习器来获得较小的集成 ，称 
为集成修剪 (ensemble pruning ). 这有助于减小模型的存储开销和预测时间开 
销.早期研究主要针对序列化集成进行，减小集成规模后常导致泛化性能下降 
[ Rokach , 2010 a ]; [Zhou et al . 5 2002] 揭示出对并行化集成进行修剪能在减小规 
模的同时提升泛化 性能， 并催生了基于优化的集成修剪技术.这方面的内容可 
参阅 [ Zhou , 2012] 第6章. 

关于聚类、半监督学习、代价敏感学习等任务中集成学习的内容，可参阅 
[ Zhou ? 2012] 第7 〜 8章.事实上，集成学习已被广泛用于几乎所有的学习任务. 
著名数据挖掘竞赛 KDDCup 历年的冠军几乎都使用了集成学习. 


由于集成包含多个学习器，即便个体学习器有较好的可解释性，集成仍是 
黑箱模型.已有一些工作试图改善集成的可解释性，例如将集成转化为单模 
型、从集成中抽取符号规则等，这方面的研究衍生出了能产生性能超越集成 
的单学习器的“二次学习” （ twice - learning ) 技术，例如 NeC 4.5 算法 [Zhou and 
Jiang , 2004]. 可视化技术也对改善可解释性有一定帮助.可参阅 [ Zhou , 2012 
第8章. 
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西瓜数据集 3.0a 见 p.89 
表 4.5. 


习题 

8.1 假设抛硬币正面朝上的概率为 p ， 反面朝上的概率为 1- p . 令 H ( n ) 

代表抛 n 次硬币所得正面朝上的次数，则最多 A : 次正面朝上的概率为 

(8.43) 


(8.44) 

试推导出式 (8.3). 

8.2 对于0/1损失函数来说，指数损失函数并非仅有的一致替代函数.考 
虑式(8.5)，试 证明： 任意损失函数 £(- /( ㈨ 丑 ㈤ )，若对于在区 
间[- oo 刈 （5 >0) 上单调递减,则/是0/1损失函数的一致替代函数. 

8.3 从网上下载或自己编程实现 AdaBoost , 以不剪枝决策树为基学习器, 
在西瓜数据集 3.0 a 上训练一个 AdaBoost 集成，并与图 8.4 进行比较. 

8.4 GradientBoosting [ Friedman , 2001] 是一^种常用的 Boosting 算法，试 

析其与 AdaBoost 的异同. 

! . - 

8.5 试编程实现 Bagging , 以决策树桩为基学习器，在西瓜数据集 3.0 a 上 
训练一个 Bagging 集成，并与图 8.6 进行比较. 

8.6 试析 Bagging 通常为何难以提升朴素贝叶斯分类器的性能. 

8.7 试析随机森林为何比决策树 Bagging 集成的训练速度更快. 

8.8 MultiBoosting 算法 [ Webb ，2000] 将 AdaBoost 作为 Bagging 的基学 
习器 ， Iterative Bagging 算法 [ Breiman , 2001 b ] 则是将 Bagging 作为 
AdaBoost 的基学习器.试比较二者的优缺点. 

8 . 9 * 试设计一种可视的多样性度量，对习题 8.3 和习题 8.5 中得到的集成 
进行评估，并与&误差图比较. 

8 . 10 * 试设计一种能提升 A : 近邻分类器性能的集成学习算法. 


P ( 丑 (nK A; 卜 ； ^ : W (1 — P )“. 

/ji — ^ ^ 

•» 

对6 > 0, & = (p — 5) n ， 有 Hoeffding 不等式 

P(H ( n ) ^ { p -6) n ) ^ e 一 2 仏 . 
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休息一会儿 


小故事：老当益壮的李奥•布瑞曼 

李奥 •布瑞曼 (Leo Breiman , 1928-2005) 是二十世纪 
伟大的统计学家.他在二十世纪末公开宣称，统计学界把 
统计搞成了抽象数学，这偏离了初衷，统计学本该是关于预 
测、解释和处理数据的学问.他自称与机器学习走得更近， 

因为这一行是在处理有挑战的数据问题.事实上，布瑞曼是 
一位卓越的机器学习学家，他不仅是 CART 决策树的作者，还对集成学习有三 
大贡献: Bagging 、 随机森林以及关于 Boosting 的理论探讨.有趣的是，这些都 
是在他 1993 年从加州大学伯克利分校统计系退休后完成的. 

布瑞曼早年在加州理工学院获物理学士学位，然后打算到哥伦比亚大学念 
哲学，但哲学系主任告诉他，自己最优秀的两个博士生没找到工作，于是布瑞曼 
改学数学，先后在哥伦比亚大学和加州大学伯克利分校获得数学硕士、博士学 
位.他先是研究概率论，但在加州大学洛杉矶分校 ( UCLA ) 做了 7 年教授后他厌 
倦了概率论，于是主动辞职.为了向概率论告别，辞职后他把自己关在家里半年 
写了本关于概率论的书,然后他到工业界做了 13 年咨询，再回到加州大学伯克 
利分校统计系做教授.布瑞曼的经历极为丰富，他曾在 UCLA 学术假期间主动 
到联合国教科文组织工作，被安排到非洲利比里亚统计失学儿童数.他是一位 
业佘雕塑家，甚至还与人合伙在墨西哥开过制冰厂.他自认为一生最重要的研 
究成果——随机森林，是 70 多岁时做出来的. 









常见的无监督学习任 
务还有密度估计 ( densi ¬ 
ty estimation )、 异常检测 
(anomaly detection ) 等. 


对聚类算法而言，样本 
簇亦称“类”. 


聚类任务中也可使用有 
标记训练样本，如 9.4.2 与 
13.6 节，但样本的类标记 
与聚类产生的簇有所不同. 


第9章聚 类 


9.1 聚类任务 

在“无监督学习 ” （unsupervised learning ) 中，训练样本的标记信息是未 
知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为 
进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是“聚 
类” ( clustering ). 

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集 
称为一个“簇” （ cluster ). 通过这样的划分，每个簇可能对应于一些潜在的概 
念(类别)，如“浅色瓜” “深色瓜”，“有籽瓜” “无籽瓜”，甚至“本地瓜” 

“外地瓜”等；需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程 
仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名. 

形式化地说，假定样本集乃== { xi , X 2,..., x m } 包含 m 个无标记样本， 
每个样本= 0 ril ;&2;...; An ) 是一个 n 维特征向量，则聚类算法将样本 
集 D 划分为 A 个不相交的簇 {CH Z = 1 ， 2 ; . ..，&}， 其中 CV 门 = 0 
且 D = UtiQ . 相应地，我们用\ e { I , 2 ,…， A ;} 表示样本巧的“簇标 
记” (cluster label ), 即％ € 于是，聚类的结果可用包含 m 个元素的簇标 

记向量入= ( A ； L ; A 2;...;/\ m ) 表示. 

聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分 
类等其他学习任务的前驱过程.例如，在一些商业应用中需对新用户的类型进 
行判别，但定义“用户类型”对商家来说却可能不太容易，此时往往可先对用 
户数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训 
练分类模型，用于判别新用户的类型. 

基于不同的学习策略，人们设计出多种类型的聚类算法.本章后半部分将 
对不同类型的代表性算法进行介绍，但在此之前，我们先讨论聚类算法涉及的 
两个基本问题——性能度量和距离计算. 

9.2 性能度量 

聚类性能度量亦称聚类“有效性指标 ” （validity index ). 与监督学习中的 
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监督学习中的性能度量 
参见 2.3 节. 


例如将领域专家给出的 
划分结果作为参考模型. 


通常 k ★ s . 


性能度量作用相似,对聚类结果，我们需通过某种性能度量来评估其好坏；另一 
方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化 
目标，从而更好地得到符合要求的聚类结果. 

聚类是将样本集 D 划分为若干互不相交的子集，即样本簇.那么，什么 
样的聚类结果比较好呢？直观上看，我们希望“物以类聚”，即同一簇的样本 
尽可能彼此相似，不同簇的样本尽可能不同.换言之，聚类结果的“簇内相似 
度” ( intra-cluster similarity ) 高且“簇间相似度” ( inter-cluster similarity ) 低. 

聚类性能度量大致有两类.一类是将聚类结果与某个“参考模 
型” (reference model ) 进行比较，称为“外部指标” (external index ); 另一 
类是直接考察聚类结果而不利用任何参考模型，称为“内部指标” (internal 
index ). 

对数据集乃={以，町，…， x m }, 假定通过聚类给出的簇划分为 C = { Ci , 
C 2 ” •” C k }, 参考模型给出的簇划分为 C * = { C 7【， C 2 *， …, C *}. 相应地，令入与 
A * 分别 表示与 C 和 C * 对应的簇标记向量.我们将样本两两配对考虑，定义 

a =| S f S , |, SS — {( xi ^ Xj ) I Xi — Aj , A * = Xpi < j )}, (9.1) 


b = 

SD \, 

SD = 

{(Xi^ Xj) | 

= Aj ， W < i )}, 

(9.2) 

C —■ 

DS , 

DS = 

1 

A^A j 5 A* = A* 5 i<i)} ? 

(9.3) 

d = 

\ DD \, 

DD = 

二 {(心， 

| j )} 5 

(9.4) 


其中集合包含了在 c 中隶属于相同簇且在 c * 中也隶属于相同簇的样 
本对，集合包含了在 C 中隶属于相同簇但在 C * 中隶属于不同簇的样本 
对， 由于每个样本对 (x h Xj) (i < j ) 仅能出现在一个集合中，因此有 

Qj-^-b-^rC-^-d, — 171(771 — 1)/2 成 

基于式 (9.1) 〜 (9.4) 可导出下面这些常用的聚类性能度量外部指标： 


• Jaccard 系数 (Jaccard Coefficient ， 

简称 JC ) 


JC = 

a 

(9.5) 

a b c 

• FM 指数 (Fowlkes and Mallows Index , 简称 FMI ) 


FMI = *1 

1 a a 

a + b a + c 

(9.6) 


9.3 距离计算 


• Rand 指数 (Rand Index， 简称 RI) 
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距离越大则样本的相似 
度 越低； 距离计算见下节. 


RI 


2 (ci + C ?) 
7 i(m — 1) 


显然，上述性能度量的结果值均在队1]区间，值越大越好. 
考虑聚类结果的簇划分 C = C 2 ,... ， Ck }， 定义 


wg(C) 


2 


E- 


| C |(| C |-1) ^ w < j <\ c \ 
diam(C) = max 1 ^ < ^| ( 7| dist(a^ ， a?j) 

^min (Q, Cj ) — ^^-XiECi,XjECj dist((Cj, Xj 


dist ( x {, Xj ) 


■^cen 


{ Ci , Cj ) = dist(/X^, fXj ) 


(9.7) 


(9.8) 

(9.9) 

(9.10) 

(9.11) 


其中，用于计算两个样本之间的 距离； M 代表簇 C 的中心 点 /i = 
l^y Si^|c| Xi . 显然， avg(C) 对应于簇 C7 内样本间的平均距离， disLm(C) 对 
应于簇 C 内样本间的最远距离， d min ( CuCj ) 对应于簇 Q 与簇 Cj 最近样本间 
的距离， d cen ( C h Cj ) 对应于簇 Q 与簇 Cj 中心点间的距离. 

基于式 (9.8) 〜 (9.11) 可导出下面这些常用的聚类性能度量内部 指标： 




DB 指数 (Davies-Bouldin Index, 简称 DBI) 


1 k 

DBI = - V max 

k ^ 

2=1 


avg(Q) + avg(Cj) 


^cen 


( f^ii Mi ) 


9.12 s 


參 


Dunn 指数 (Dunn Index, 简称 DI) 


DI — min < min 


dnnniCuCj) 


i^k [ j^i \ meixi^k diam(C , z ) 
显然， DBI 的值越小越好，而 DI 则 相反， 值越大越好. 


(9.13: 


9.3 距离计算 

对函数 dist(., .)，若它是一个“距离度量” （distance measure)， 则需满足一 
些基本性质： 


非负性： dist ( xi , Xj ) > 0 ; 

同一性： dist ( xi , xj ) = 0当且仅当心=; 


(9.14) 

(9.15) 
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直递性常被直接称为 
三角不等式”. 


式 (9.18) 即为 Xi - Xj 

I— p 5 巳 I Xj 11 p • 


p ㈠ ► oo 时则得到切比雪 
夫距离. 


亦称“街区距离” (city 
block distance ). 


连续属性亦称“数值属 

性” (numerical attribute ), 
“离散属性”亦称“列名 
属性” (nominal attribute ). 


样本类别已知时 fc 通常 
设置为类别数. 


对称性： dist (£ Ci , = dist ( ccj , 而）； (9.16) 

直递性： dist ( xi , xj ) ^ dist ( xi , Xk ) + dist ( xk , Xj ) . (9.17) 

给定样本 A = ( 而 1; 而 2;...;^) 与 0 ^二 (Xjl ； Xj2 ； ... ； Xjn), 最常用的是 
“岗可夫斯基距离 ” （Minkowski distance ) 

Xj U \ p \ • (9.18) 

对 p > 1,式 (9.18) 显然满足式 (9.14) 〜 (9.17) 的距离度量基本性质. 
p = 2 时,闵可夫斯基距离即欧氏距离 (Euclidean distance ) 

n 

dist ec j ^ \\Xi — ® jf ||2 = A 〉: \^iu ~ • (9.19) 

p = 1 时，闵可夫斯基距离即曼哈顿距离 (Manhattan distance ) 


dist m k(3^ ， Xj) 



IU 


d . ist man ( x ^,3?^) — \\xi — Xj i = > : \xi u — Xj u \ . (9.20) 

U=1 

我们常将属性划分为“连续属性 ” （continuous attribute ) 和“离散属 
性” (categorical attribute ) ,前者在定义域上有无穷多个可能的取值，后者在定 
义域上是有限个取值.然而，在讨论距离计算时，属性上是否定义了 “序”关 
系更为重要.例如定义域为 {1, 2,3> 的离散属性与连续属性的性质更接近一些, 
能直接在属性值上计算距离：“1”与 “2” 比较接近、与 “3” 比较远，这样的 
属性称为“有序属性 ” （ordinal attribute ); 而定义域为 { 飞机，火车，轮船 } 这样 
的离散属性则不能直接在属性值上计算距离，称为“无序属性” （ non-ordinal 
attribute ). 显然，闵可夫斯基距离可用于有序属性. 

对无序属性可釆用 VDM (Value Difference Metric ) [Stanfill and Waltz , 
1986]. 令 m u ， a 表示在属性 w 上取值为 a 的样本数, m u , a , i 表示在第 i 个样本簇 
中在属性^上取值为 a 的样本数， A ; 为样本簇数，则属性 u 上两个离散值 a 与 b 
之间的 VDM 距离为 

k 

VDM P ( a , b ) = J 2 


m . 




饥 u,b 


V 


(9.21) 
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参见 10.6 节. 


于是，将闵可夫斯基距离和 VDM 结合即可处理混合属性.假定有个有 
序属性、 n - n e 个无序属性，不失一般性，令有序属性排列在无序属性之前，则 

( Tic 几 \ p 

^ : \^iu - ^ju ^ ^ : ^ju) I . 

u=l u=n c -\~l / 

(9.22) 

当样本空间中不同属性的重要性不同时，可使用“加权距离” (weighted 
distance ). 以加权闵可夫斯基距离为例： 

distwmk (^^，$)•) = ( 初 1 . | 而 1 — ^jl F + . • • + 切 n . — ^jn ^ p : (9.23) 

其中权重 ^^0( z - l ,2,..., n ) 表征不同属性的重要性，通常邶= 1. 

需注意的是，通常我们是基于某种形式的距离来定义“相似度度 
量” (similarity measure ), 距离越大，相似度越小.然而，用于相似度度量的 
距离未必一定要满足距离度量的所有基本性质，尤其是直递性 (9.17). 例如在 
某些任务中我们可能希望有这样的相似度度量：“人” “马”分别与“人马” 
相似，但“人”与“马”很不相似；要达到这个目的，可以令“人” “马”与 
“人马”之间的距离都比较小，但“人”与“马”之间的距离很大，如图 9.1 所 
示，此时该距离不再满足直 递性； 这样的距离称为“非度量距离” ( non-metric 
distance ). 此外，本节介绍的距离计算式都是事先定义好的，但在不少现实任 
务中，有必要基于数据样本来确定合适的距离计算式，这可通过“距离度量学 
习” (distance metric learning ) 来实现 . 


这个例子中，从数学上 
看，令办== 3即可满足直 
递性; 但从语义上看 ，办应 
远大于 di 与办. 



d,i + (i.2 〈 d‘3 
不满足直递性 


图 9.1 非度量距离的一个例子 
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9.4 原型聚类 


“原型”是指样本空间 
中具有代表性的点. 


原型聚类亦称“基于原型的聚类” （ prototype-based clustering ) ,此类算法 
假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用.通常情形下, 
算法先对原型进行初始化，然后对原型进行迭代更新求解.釆用不同的原型表 
示、不同的求解方式，将产生不同的算法.下面介绍几种著名的原型聚类算法. 


9.4.1 /c 均值算法 


给定样本集= { a ? i ，£ C2 ,... 均值” （ A :- means ) 算法针对聚类所 

得簇划分 C = { Ci , C 2? ..., C fc } 最小化平方误差 

k 

\\ x - fjiiWl , (9.24) 

其中 A = Exec , ® 是簇 Ci 的均值向量.直观来看，式 (9.24) 在一定程度上 
刻画了簇内 i 本围绕簇均值向量的紧密程度，五值越小则簇内样本相似度越高. 

最小化式 (9.24) 并不容易，找到它的最优解需考察样本集 D 所有可能的簇 
划分，这是一个 NP 难问题 [Aloise et al .，2009]. 因此， /c 均值算法采用了贪心策 
略，通过迭代优化来近似求解式 (9.24). 算法流程如图 9.2 所示，其中第1行对 
均值向量进行初始化，在第 4-8 行与第 9-16 行依次对当前簇划分及均值向量迭 
代更新，若迭代更新后聚类结果保持不变，则在第18行将当前簇划分结果返回. 

下面以表 9.1 的西瓜数据集 4.0 为例来演示&均值算法的学习过程.为方 
便叙述，我们将编号为 i 的样本称为这是一个包含“密度”与“含糖率” 
两个属性值的二维向量. 


P .89 的西瓜数据集 3.0 a 表 9.1 西瓜数据集 4.0 

是西瓜数据集 4.0 的 子集. _ : _„_ 



编号 

密度 

含糖率 

编号 

密度 

含糖率 

编号 

密度 

含糖率 


1 

0.697 

0.460 

11 

0.245 

0.057 

21 

0.748 

0.232 


2 

0.774 

0.376 

12 

0.343 

0.099 

22 

0.714 

0.346 

样本9〜21的类别是 

3 s 

0.634 

0.264 

13 

0.639 

0.161 

23 

0.483 

0.312 

“好瓜=否”，其他样本 

4 

0.608 

0.318 

14 

0.657 

0.198 

24 

0.478 

0.437 

的类别是“好瓜=是”. 

5 

0.556 

0.215 

15 

0.360 

0.370 

25 

0.525 

0.369 

由于本节使用无标记样本， 

6 

0.403 

0.237 

16 

0.593 

0.042 

26 

0.751 

0.489 

因此类别标记信息未在表 
中给出. 

7 

0.481 

0.149 

17 

0.719 

0.103 

27 

0.532 

0.472 

8 

0.437 

0.211 

18 

0.359 

0.188 

28 

0.473 

0.376 


9 

0.666 

0.091 

19 

0.339 

0.241 

29 

0.725 

0.445 


10 

0.243 

0.267 

20 

0.282 

0.257 

30 

0.446 

0.459 
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为避免运行时间过长, 
通常设置一个最大运行轮 
数或最小调整幅度阈值, 
若达到最大轮数或调整幅 
度小于阈值，则停止运行. 


输入：样本集 D = a ? m }; 

聚类簇数妃 

过程： 

1：从中随机选择 / C 个样本作为初始均值向量 

2： repeat 

3 ：令 Ci = 0 (1 ( i ( k ) 

4: for j = 1,2 , …， m do 

5： 计算样本与各均值向量 fjii (1 ^ k ) 的距离 ：= ||ccj — / x ;||2; 

6： 根据距离最近的均值向量确 S %的簇标记 ： Aj = argmin^M 2 k} dji ] 

7: 将样本％ 划入雛的簇： C Ai = A Uk } ; ’ … 

8: end for 

9: for i = 1,2,..., /u do 

10: 计算新均值尚量： / x • = j ^-| J 2 xeCi x 5 

11： if \ i \ 7 ^ fj，i then 

12: 将当前均值向量糾更新为 〆 

13: else 

14: 保持当前均值向量不变 

15: end if 

16： end for 

17： until 当前均值向量均未更新 
输出： mM^c = { c u c 2 ,..., c k } 


图 9.2 A ; 均值算法 

假定聚类簇数 A ; = 3,算法开始时随机选取三个样本 t 6 , z 12 , r 27 作为初始 
均值向量，即 

Mi = (0.403; 0.237), / i 2 = (0.343; 0.099)， M 3 = (0.532; 0.472). 

考察样本 A = (0.697; 0.460), 它与当前均值向量 mi , M 2, M 3 的距离分别为 
0.369,0.506, 0.166,因此町将被划入簇 C 3 中.类似的，对数据集中的所有样本 
考察一遍后，可得当前簇划分为 

®6, 怎8,尤9, ®10, 尤 13,工 14,怎 15, ®17, 怎 18,怎 19, ®20, 尤 23 }; 

C 2 = {«11,«12,^16}； 

Cs = {a?i, a? 2 , ® 3 , X4, X 21 ,X 22 , *24, ®25? *26? ®27? ®28, *29, ®3o}- 

于是，可从 Cb C 2 、 （7 3 分别求出新的均值向量 

jli [ = (0.473; 0.214), ^ 2 = (0.394; 0.066), a 4 = (0.623; 0.388). 

更新当前均值向量后，不断重复上述过程，如图 9.3 所示，第五轮迭代产生的结 
果与第四轮迭代相同，于是算法停止，得到最终的簇划分. 
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0.2 


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


0.2 
0.1 

8.1 


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


密度 

(C) 第三轮迭代后 


密度 

⑷第四轮迭代后 


可看作通过聚类来形成 
类别“子类”结构，每个 
子类对应一个聚类簇. 


图 9.3 西瓜数据集 4.0 上 /c 均值算法 (fc = 3) 在各轮迭代后的结果.样本点与均值向 
量分别用“•”与“+”表示，红色虚线显示出簇划分. 

9.4.2 学习向量量化 

与 k 均值算法类似，“学习向量量化 ” （Learning Vector Quantization ， 简 
称 LVQ ) 也是试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同 
的是， LVQ 假设数据样本带有类别标记，学习过程利用样本的这些监督信息来 
辅助聚类. 

给定样本集乃= {(xi,yi), ( x 2 , V2), . . . , («m, Vm)}, 每个样本％是由 n 个 
属性描述的特征向量 [xji\Xj2 ]... \ Xj n ), Hj G y 是样本的类别标记. LVQ 的 
目标是学得一组 n 维原型向量 { pi , p 2 ,.. 每个原型向量代表一个聚类簇， 

簇标记^ G 义 

LVQ 算法描述如图 9.4 所示.算法第1行先对原型向量进行初始化，例如 
对第 g 个簇可从类别标记为~的样本中随机选取一个作为原型向量.算法第 



0.2 


0.3 


0.4 


0.5 


0.6 


0.7 


0.9 


密度 


0.2 0.3 0.4 0.5 


0.6 0.7 


0.9 


( a ) 第一轮迭代后 


密度 

㈤ 第二轮迭代后 


0.6 


0,6 


0.7 


0*7 





资#命 


8 7.6.5.4J 
0 . 0 . 0 . 0 . 0 . 0 . 




.5.4.3. 2.1 
0.O.O.O.0. 
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•与 Pi * 的类别相同 • 
Xj 与 Pi * 的 类别不同. 

如达到最大迭代轮数. 


输入：样本集 D = {( xi 5 yi ), (£ C 2 , 2 / 2 ), . . . , ( Xm , ym)h 

原型向量个数 A 各原型向量预设的类别标记 { h , t 2 ,.. 

学习率 7/e (0， i ). 

过程： 

1：初始化一组原型向量 { pi ， P 2，...， Pg } 

2： repeat 

3：从样 本集乃 随机选取样本 ( x ^ yj ); 

4:计算样本 5 ^ 与 pi 的距离：知=11% ~ Pi \\2； 

5:找出与距离梟近的原型尚量阶，二 argmin i€{12i dji \ 
6： if Uj = U * then 

7: p f = Pi * +V ' ( x j — Pi *) 

8: else 

9： P f = Pi * - V ' ~ Pi *) 

10： end if 

11： 将原型向量 pe 更新为 ^ 

12: until 满足停止条件 

输出：原型向量 { pi , P 2，...， Pg } _^_ 

图 9.4 学习向量量化算法 


第5行是竞争学习的 
“胜者为王”策略 . SOM 
是基于无标记样本的聚类 
算法，而 LVQ 可看作 SOM 
基于监督信息的扩展.关 
于竞争学习与 SOM , 参见 
5.5.2 和 5.5.3 节. 


2〜12行对原型向量进行迭代优化.在每一轮迭代中，算法随机选取一个有标记 
训练样本，找出与其距离最近的原型向量，并根据两者的类别标记是否一致来 
对原型向量进行相应的更新.在第12行中，若算法的停止条件已满足(例如已 
达到最大迭代轮数，或原型向量更新很小甚至不再更新)，则将当前原型向量作 
为最终结果返回. 


显然， LVQ 的关键是第 6-10 行，即如何更新原型向量.直观上看，对样本 
x h 若最近的原型向量队*与％的类别标记相同，则令仍*向％的方向靠拢, 
如第7行所示，此时新原型向量为， 

p r = Pi* + T]' (xj — p^) , (9.25) 

V 与：^ 之间的距离为 

\p f -Xj \\ 2 = \\pi* +TJ. (Xj — Pi*) - Xj \\ 2 

= (l-r/) * ||pi* - Xj \\ 2 . (9-26) 

令学习率 W e (0,1), 则原型向量仍*在更新为 p/ 之后将更接近 A. 

类似的，若 Pi * 与％的类别标记不同，则更新后的原型向量与％之间的 
距离将增大为 (1 4" 7]) • I \ pi * — CCj 1 12 ? 从而更远离％. 

在学得一组原型向量{^，仍，...，：^}后，即可实现对样本空间义的簇划 
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若将中样本全用原 
型向量 Pi 表示，则可实 
现数据的“有损压缩” 
(lossy compression ), 这称 
为“向量量化” (vector 
quantization ); LVQ 由此而 
得名. 


即希望为“好瓜=是 
找到3个簇，“好瓜=否 
找到2个簇. 


记为 ® 〜分 ( m ， S ). 

S : 对称正定矩阵； 
| S |: S 的行 列式； 
S - 1 : S 的逆矩阵. 


分.对任意样本 A 它将被划入与其距离最近的原型向量所代表的 簇中； 换言 
之，每个原型向量&定义了与之相关的一个区域苑，该区域中每个样本与 A 
的距离不大于它与其他原型向量 Pv K 的距离，即 

Ri = {x e X \ \\x ~ Pi\\2 ^ \\x — Pe \\ 2i i f y ^ i } . (9.27) 


由此形成了对样本空间 Y 的簇划分 { Ri , R 2 ,..., R q }, 该划分通常称为 
“ Voronoi 咅 1] 分” (Voronoi tessellation ). 

下面我们以表 9.1 的西瓜数据集 4.0 为例来演示 LVQ 的学习过程.令 9-21 
号样本的类别标记为 c 2 , 其他样本的类别标记为 c ； l . 假定 g = 5， 即学习目 
标是找到5个原型向量仍，: P 2, P3 , P 4, P 5, 并假定其对应的类别标记分别为 

。 1. ，， C2 ， Ci ， Ci • 

算法开始时，根据样本的类别标记和簇的预设类别标记对原型向量进行随 
机初始化，假定初始化为样本吗， £ Ci 2, ®18, T 23, *29. 在第一 * 轮迭代中，假定随 
机选取的样本为化，该样本与当前原型向量 pi ， 仍， P 3, P 4, P 5 的距离分别为 
0.283, 0.506, 0.434, 0.260, 0.032. 由于 p 5 与以距离最近且两者具有相同的类 
别标记 C 2, 假定学习率7； = 0.1, 则 LVQ 更新 P 5 得到新原型向量 

P f =P5 + V' (*1 - Ph) 

二 (0.725; 0.445) + 0.1- ((0.697; 0.460) - (0.725; 0.445)) 

二 (0.722; 0.442). 

将: p 5 更新为#后，不断重复上述过程，不同轮数之后的聚类结果如图 9.5 所示. 

9.4.3 高斯混合聚类 


与 k 均值、 LVQ 用原型向量来刻画聚类结构不同，高斯混合彳 Mixture - of - 
Gaussian ) 聚类采用概率模型来表达聚类原型. 

我们先简单回顾一下(多元)高斯分布的定义.对 n 维样本空间 Y 中的随机 
向量®，若 a ? 服从高斯分布，其概率密度函数为. 


P(x) 


(2tt)2 |E 


(x—/jL) T 'E~ 1 (x—fjb) 


(9.28) 


其中 / i 是 n 维均值向量， S 是 n x n 的协方差矩阵.由式 (9.28) 可看出，高斯分 
布完全由均值向量 M 和协方差矩阵 5] 这两个参数确定.为了明确显示高斯分 
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0.3 0.4 0.5 0.6 0.7 0.8 0.9 

密度 

( b ) 1 ㈤ 轮迭代后 



密度 

( a ) 50轮迭代后 



0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

密度 密度 

(c) 200轮迭代后 （ d ) 400轮迭代后 

图 9.5 西瓜数据集 4.0 上 LVQ 算法 (g = 5) 在不同轮数迭代后的聚类结果 . Cl ， c 2 类样 
本点与原型向量分别用“•，，， “ o ” 与“+”表示，红色虚线显示出聚类形成的 Voronoi 剖分. 


布与相应参数的依赖关系，将概率密度函数记为 | 

我们可定义高斯混合分布 

: ㈠ 也是概率密度函 k 

数 ， f p^i(x)dx = l. — > Oi{ • , (9.29) 

i=l 

该分布共由 / c 个混合成分组成，每个混合成分对应一个高斯分布.其中 Mi 与 
是第 i 个高斯混合成分的参数，而> 0为相应的“混合系数” (mixture 
coefficient ), ol % = 1. 

假设样本的生成过程由高斯混合分布给出：首先，根据定义 
的先验分布选择高斯混合成分，其中为选择第 i 个混合成分的概率;然后，根 
据被选择的混合成分的概率密度函数进行采样，从而生成相应的样本. 




. 8 . 7 . 6 . 5 . 4 . 3 . 2.1 
0.0.O.0.O.0.0.O. 

4 -#^ 


. 8 . 7 . 6 . 5 . 4 . 3 . 2.1 
0.0.O.0.O.O.O.0. 


. 8 . 7 . 6 . 5 . 4 . 3 . 2.1 
0.O.O.O.0.O.O.0. 

资 #♦ 


. 8 . 7 . 6 . 5 . 43 . 2.1 
0 . 0 . 0 . 0 . 0 . 0 . 0 . 0 . 
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极大似然估计参见 7.2 
节. 


EM 算法参见 7.6 节. 


若训练集乃= { x U X 2 ,... 1 X m } 由上述过程生成，令随机变量勺 G {1, 
2, ... ， 以表示生成样本％的高斯混合成分，其取值未知.显 然，; ^的先验概率 
P ( Zj 二 i ) 对应于％ (i = l ,2，...， fc ). 根据贝叶斯定理，勺的后验分布对应于 




x j) 




P{zj = i) - PM.{ x j Zj 二 i) 
Pm(xj) 

* Pip^j 

E a l - p( x j I fM ， 乙 l) 

1=1 


(9.30) 


换言之， p M (zj = i I xj ) 给出了样本由第 i 个高斯混合成分生成的后验概 
率.为方便叙述，将其简记为7# (i = 1， 2, ... ， A 0. 

当高斯混合分布 (9.29) 已知时，高斯混合聚类将把样本集 D 划分为 A : 个簇 
C — { Cl ， (?2,…， Ck }， 每个样本的簇标记 Aj 如下确定： 


Xj = arg max 7 # • (9.31) 

因此，从原型聚类的角度来看，高斯混合聚类是采用概率模型(高斯分布)对原型 
进行刻画，簇划分则由原型对应后验概率确定. 

那么，对于式(9.29)，模型参数 \ l ^ i ^ k } 如何求解呢？显然， 
给定样本集乃，可采用极大似然估计，即最大化(对数)似然 


Si)J , (9.32) 

常采用 EM 算法进行迭代优化求解.下面我们做一个简单的推导. 

若参数 \ l ^ i ^ k } 能使式 (9.32) 最大化，则由= 0有 

E f ） ㈨ -灼 )= 0 , ■ (9.33) 

j=1 E a i - p(^j I ^h^i) 

1=1 

由式 (9.30) 以及 7# = PM( z j — ^ I %),有 


LL ( D ) — In JJ Pm{ x j) 


m / k 

E ln (E 

7=1 \ i=l 


- p(x 




9.4 原型聚类 


209 


S lji x 3 

Mi — ~~rh , (9.34) 

Yliji 

3=1 

即各混合成分的均值可通过样本加权平均来估计，样本权重是每个样本属于该 
成分的后验概率.类似的，由 -0 可得 

m 

S ~ — Z^) T 

& = ^ - m - ' —— • (9.35) 

E7ji 

j=i 

对于混合系数％，除了要最大化 LL ( B ), 还需满足％ > 0, Eti = l - 考虑 


(9.36) 


(9.37) 


(9.38) 

即每个高斯成分的混合系数由样本属于该成分的平均后验概率确定. 

由上述推导即可获得高斯混合模型的 EM 算法： 在每步迭代中，先根据 
当前参数来计算每个样本属于每个高斯成分的后验概率7# ( E 步)，再根据 
式(9.34)、 （9.35) 和 (9.38) 更新模型参数{(%，叫,及 ） j 1 ^ i ^ k } ( M 步). 

高斯混合聚类算法描述如图 9.6 所示.算法第1行对高斯混合分布的模型 
参数进行初始化.然后，在第 2-12 行基于 EM 算法对模型参数进行迭代更新. 
若 EM 算法的停止条件满足(例如已达到最大迭代轮数，或似然函数 增 


LL ( D ) 的拉格朗日形式 


k 


LL{D) + \[Y^OLi~l 


‘ i=l 


其中 A 为拉格朗日乘子.由式 (9.36) 对％的导数为0,有 


E 


p{Xj I 


k 


+ A = 0 


j=1 E a i ' p( x j \ 
1=1 


两边同乘以％，对所有样本求和可知 A = - m ， 有 


( y-i 


i=i 
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EM 算法的 E 步. 


EM 算法的 M 步. 


例如达到最大迭代轮数. 


输入： 样本集 D . 

高斯混合成芬个数 / c . 

1：初始化高斯混合分布的模型参数 \1 ^ k } 

2; repeat 


3: 

4: 

5: 

6 : 

7: 

8 : 


for j = 1,2 , …， m do 

根据式 (9.30) 计算％由各混合成分生成的后验概率，即 

Kji = = ^ | 怎 j) (1 ^ ^ ^ 

end for 

for % — 1 ， 2， . • • ，灸 do 


计算新均值 向量 ： W 
计算新协方差矩阵：: 


X)j=l lji x j . 

， 

— — 、 

rr=i 7 ,i 


9: 计算新混合系数 ： o 4 川 , 

10： end for 

11: 将模型参数 {( a ^/ i ^ Si ) I 1 < i O } 更新为 {( a -,/ x -, X )-) \ l^i ^ k } 
12； until 满足停止秦# 

13: Ci = 0 (l ^ i ^ k ) 

14： for j = 1，2,…， 77 i do 
15: 根据式 (9.31) 鈿定％ 的簇标记 


16 

17 


将％划入相应的簇： C 、 = 

end for 


输出： mM^c = {c 1 ,c 2 ,...,c k } 


图 9.6 高斯混合聚类算法 

长很少甚至不再增长)，则在第 14-17 行根据高斯混合分布确定簇划分,在第18 
行返回最终结果. 

以表 9.1 的西瓜数据集 4.0 为例，令高斯混合成分的个数 k = 3 . 算法开始 
时，假定将髙斯混合分布的模型参数初始化为： a ! = a 2 = a 3 = [ i \ = xq , 

E m " 11 "* h i 0« 1 0*0 I 

- — —— …… 1 = 厶 2 = 厶 3 = l o o 0 1 J • 

在第一轮迭代中，先计算样本由各混合成分生成的后验概率.以&为例， 
甴式 (9.30) 算出后验概率 7 ii = 0.219, 712 — 0.404, 713 — 0.377. 所有样本的后 
验概率算完后，得到如下新的模型参数： 

a [ = 0.361, a f 2 = 0.323, = 0.316 

fi [ = (0.491; 0.251), /4 = (0.571; 0.281), = (0.534; 0.295) 

卜 025 0.004 、 ，— (0.023 0.004 、 , _ (o.024 0.005 、 

、。‘ 004 0.016 ； V 0 - 004 °- 01 V V0- 005 °- 016 / 

模型参数更新后，不断重复上述过程，不同轮数之后的聚类结果如图 9.7 所示. 
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全称 “ l ^ ensity-Based S - 
patial Clustering of Appli ¬ 
cations with Noise ” . 


在本章后续内容中，距 
离函数 dist (.，.） 在默认情 
形下设为欧氏距离. 


脊 
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密度 
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密度 

( c ) 20轮迭代后 


密度 

⑹50轮迭代后 


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


图 9.7 高斯混合聚类 ( A : = 3) 在不同轮数迭代后的聚类结果.其中样本簇 Ch ， C 2 与 C 3 
中的样本点分别用 V ’，“■”与“▲”表示，各高斯混合成分的均值向量用“+”表示. 


9.5 密度聚类 

密度聚类亦称“基于密度的聚类” ( density-based clustering ) ,此类算法假 
设聚类结构能通过样本分布的紧密程度确定.通常情形下，密度聚类算法从样 
本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇 
以获得最终的聚类结果. 

DBSCAN 是一种著名的密度聚类算法，它基于一组“邻域” （ neigh ¬ 
borhood ) 参数 （6, MinPts ) 来刻画样本分布的紧密程度.给定数据集 
D = x m }, 定义下面这几个概念： 


• e - 邻 域：对 ％ G A 其 e - 邻域包含样本集 D 中与％的距离不大于 e 的样 
本，即 N e (xj) = {xi G D I dist ( xi , Xj ) ^ e }; 
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密度直达关系通常不满 
足对称性. 


密度可达关系满足直递 
性，但不满足对称性. 


密度相连关系满足对称 

性. 


D 中不属于任何簇的样 
本被认为是噪声 ( noise ) 或 
异常 ( anomaly ) 样本. 


• 核心对象 (core object ): 若•的 e - 邻域至少包含 MinPts 个样本，即 
| iV e (^)| 彡 MinPb ， 则％是一个核心 对象； 

• 密度直达 (directly density - reachable ) :若 ccj 位于的 e - 邻域中，且心是 
核心对象，则称％由而密度直达； 

• 密度可达 ( density - reachable ): 对化与％，若存在样本序列 pi , p2 , …，: Pn ， 
其中 Pl = Pn = %且 p i +1 由仍密度直达， 则称％ 由化密度可达； 

• 密度相连 ( density - connected ): 对与％，若存在叫使得与 a ? j 均由 
x k 密度可达，则称仏与~密度相连. 

图 9.8 给出了上述概念的直观显示. 



图 9.8 DBSCAN 定义的基本概念 (Minims = 3): 虚线显示出 e - 邻域，以是核心对 
象， a?2 由怎 ： l 密度直达， a ? 3 由①1 密度可达，与 A 密度相连 . 

基于这些概念， DBSCAN 将“簇”定 义为： 由密度可达关系导出的最大的 
密度相连样本集合.形式化地说，给定邻域参数 ( t , MinPts ), 簇 C QD 是满足 
以下性质的非空样本 子集： 

连接性 ( connectivity ): 心 G C ， ％ G C 今心与％密度相连 (9.39) 

最大性 ( maximality ): 而 e C ， •由 密度可达 Xj e C (9.40) 

那么，如何从数据集乃中找出满足以上性质的聚类簇呢？实际上，若* 
为核心对象，由 T 密度可达的所有样本组成的集合记为 X = { x f e D \ 
V 由 Z 密度可达}，则不难证明 X 即为满足连接性与最大性的簇. 

于是， DBSCAN 算法先任选数据集中的一个核心对象为“种子” ( seed ), 
再由此出发确定相应的聚类簇，算法描述如图 9.9 所示.在第1 〜 7行中，算法 
先根据给定的邻域参数 ( e , MinPts ) 找出所有核心 对象； 然后在第10〜24行中， 
以任一核心对象为出发点，找出由其密度可达的样本生成聚类簇，直到所有核 
心对象均被访问过为止. 
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输入：样本集 D = { cci , aj 2} **., Xm }; 

邻域参数 ( e . MinPts ). 

过程： 

1 ：初始化核心对象集合 : n = 0 

2 ： for j = 1,2, ... ,m do 

3： 确定样本％的 e - 邻域 N e (xj); 

4： if \N e (xj)\ ^ MinPts then 
5: Xj 加入核心对象集合: D 

6 : end if 

7: end for 

8: 初始化聚类簇数 ： k = 0 
9: 初始化未访问样本集合: T 二 D 

10 ： while n # 0 do 

li ： 记录当前未访问样本集合: == r ; 

12 ：随机选取一个核心对象 o € %初始化队列 Q =< o >; 

13: r — r \ {o}; 

14： while Q ^ 0 do 

15： 取出队列 Q 中的首个样本 g ; 

16： if \ N e ( q )\ > MinPts then 

i 7： 令 △ = iv e ( g ) nr ; 

18: 将△中的样本加入队列 Q ; 

i9 ： r — r \ a ； 

20 ： end if 

21 : end while 

22 ： k = k + i , 生成聚类簇 g = r Qld \ r ; 

23： 0 = 0 \ Ck 

24： end while 

输出：簇划分 _ 

图 9.9 DBSCAN 算法 

以表 9.1 的西瓜数据集 4.0 为例，假定邻域参数 ( e , MinPts ) 设置为 e = 
0 .11, MinPts - 5. DBSCAN 算法先找出各样本的 e - 邻域并确定核心对象集 

合 ： Q = {®3 5 «5,忑6,《8,尤9,尤 13,《14, *18, ^19, *24, «25, ®28, ^29}. 然后，从 D 中 

随机选取一个核心对象作为种子，找出由它密度可达的所有样本，这就构成了 
第一个聚类簇.不失一般性，假定核心对象 吻被选 中作为种子，则 DBSCAN 
生成的第一个聚类簇为 

Cl = {xq, X 7 , Xs, £ClO, *12, ^18, ®19, «20, ^23} • 

然后， DBSCAN 将（^中包含的核心对象从 Q 中去除 ： Q = fl\Ch = 
{ x 3 l X 5 , X 9 , £ C 13, Xu , CC 24, ®25, ®28 5 ^29}- 再从更新后的集合 Q 中随机选取一个 
核心对象作为种子来生成下一个聚类簇.上述过程不断 重复， 直至 Q 为空.图 
9.10 显示出 DBSCAN 先后生成聚类簇的情况 . C；i 之后生成的聚类簇为 
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» 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 


密度 密度 

( c ) 生成聚类簇 C 3 ( d ) 生成聚类簇 C 4 

图 9.10 DBSCAN 算法 (e = 0.11, MinPfs = 5) 生成聚类簇的先后情况.核心对象、 
非核心对象、噪声样本分别用 “ o ” “* ”表示，红色虚线显示出簇划分. 


(^2 = {^3 5尤4,尤5, ^9?尤 13,尤 14,尤 16,尤 17, *^21} 


C3 = {XI,X 2 ,X22,X 2 Q,X29 } ； 

^4 = {^ 24 , ^ 25 ? ^ 27 , $ 28 , ^ 30 } 


AGNES 是 AGglomera- 
tive NESting 的简写 . 


9.6 层次聚类 

层次聚类 (hierarchical clustering ) 试图在不同层次对数据集进行划分，从而 
形成树形的聚类结构.数据集的划分可采用“自底向上”的聚合策略，也可釆 
用“自顶向下”的分拆策略. 

AGNES 是一种釆用自底向上聚合策略的层次聚类算法.它先将数据集中 
的每个样本看作一个初始聚类簇，然后在算法运行的每一步中找出距离最近的 
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1.10 DBSCAN 算法 (e = 0.11 ， MinP 
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集合间的距离计算常 
采用豪斯多夫距离 ( Haus - 
dorff distance ), 参见习题 
9.2. 


两个聚类簇进行合并，该过程不断重复 5 直至达到预设的聚类簇个数.这里的关 
键是如何计算聚类簇之间的距离.实际上，每个簇是一个样本集合，因此，只需 
采用关于集合的某种距离即可.例如， 给定聚类簇 CACj , 可通过下面的式子 
来计算距离： 


最小距离： d m i n ( Ci ， Cj ) = 
最大距离： d max ( Ci , Cj ) = 

平均距离： d avg ( Ci ， Cj ) = 


min dist(£C,z) , 
xec^zeCj 

(9.41) 

max dist(cc.z), 

xeCi，zeCj 

(9.42) 

C C l ^ ^ dist(^,z) • 

z xeCizeCj 

(9.43) 


显然，最小距离由两个簇的最近样本决定，最大距离由两个簇的最远样本决定， 
而平均距离则由两个簇的所有样本共同决定.当聚类簇距离由心 in 、 d max 或 


通常使用 d m i n , cf m ax 


或 d 


avg- 


初始化单样本聚类簇: 


初始化聚类簇距离矩阵. 


i * < j *. 


输入：样本集 D ...， cc m }; 

聚类簇距离度量函数 d; 

聚类簇数 /c. 

过程： 

1 ： for j. = 1 ， 2,…， m do 
2: Cj = {xj} 

3: end for 

4: for i = 1, 2, ...，m do 
5: for j = 1, 2,... ,m do 

6： M(iJ) = d(C u C j ); 

7: M(j, i) ^ M(i,j) 

8 ： end for 
9: end for 

10: 设置当前聚类簇个数： g 二 m 

11: while q > k do 

12 ： 找出距离最近的两个聚类簇和 Cy; 
13 :合并 和 Cj*» = C{* [^J Cj* 5 
14 ： for j = + 1，，+ 2,…, gdo 

15: 将聚类簇 q 重编号为 Cj—i 

16 ： end for 

IT: 删除距离矩阵 M 的第尸行与第 j* 列； 

18 ： for j — 1,2,... ,q — 1 do 
19 ： M(i\j) = d{C i ^C j y, 

20 ： M ( i , e) = M(ej) 

21 ： end for 
22 : ：= — 1 
23: end while 

输出：簇划分 


图 9.11 AGNES 算法 




1 29 26 2 22 21 3 4 23 25 28 24 30 27 5 7 9 17 13 14 16 6 8 18 19 10 20 15 11 12 

样本编号 

图 9.12 西瓜数据集 4.0 上 AGNES 算法生成的树状图(采用 d max ). 横轴对应于样本 
编号，纵轴对应于聚类簇距离. 


在树状图的特定层次上进行分割，则可得到相应的簇划分结果.例如，以图 
9.12 中所示虚线分割树状图，将得到包含7个聚类簇的 结果： 

Cl = {x ll x 2 Q,x 2 g }； C 2 = {x2,x 3l x 4l X2i,x 2 2h 

Cs {«23, «24, ®25, ®27, «28, *30 >； Q = { x bl X 7 }] 

Cs = {x 9 , X 1S , Xu, x 16 , X 17 }； Ce = {x 6 ,®8, ^10, ®15, ^18, «19, ®2o }； 

C7 = {xn.xu}. 


西瓜数据集 4.0 见 p.202 
的表 9.1. 


4 vg 计算时， AGNES 算法被相应地称为“单链接” ( single - linkage ) > “全链 
接” （ complete - linkage ) 或“均链接” （ average - linkage ) 算法. 

AGNES 算法描述如图 9.11 所示.在第 1-9 行，算法先对仅含一个样本的 
初始聚类簇和相应的距离矩阵进行初始化；然后在第 11-23 行， AGNES 不断合 
并距离最近的聚类簇，并对合并得到的聚类簇的距离矩阵进行 更新； 上述过程 
不断重复，直至达到预设的聚类簇数. 

以西瓜数据集 4.0 为例，令 AGNES 算法一直执行到所有样本出现在同一 
个簇中，即& = 1，则可得到图 9.12 所示的“树状图” ( dendrogram ), 其中每层 
链接一组聚类簇. 1 
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0.1 

0 
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密度 

( a ) 聚类襄数 k = 7 


密度 

( b ) 聚类嚴数 k 


将分割层逐步提升，则可得到聚类簇逐渐减少的聚类结果.例如图 9.13 显 
示出了从图 9.12 中产生7至4个聚类簇的划分结果. 


密度 密度 

( c ) 聚类簇数 k = 5 ( d ) 聚类簇数 k = 4 

图 9.13 西瓜数据集 4.0 上 AGNES 算法(采用 d max ) 在不同聚类簇数 ( A : = 7, 6, 5, 4) 时 
的簇划分结果.样本点用“•”表示，红色虚线显示出簇划分. 


9.7 阅读材料 

聚类也许是机器学习中“新算法”出现最多、最快的领域.一个重要原因 
是聚类不存在客观 标准； 给定数据集，总能从某个角度找到以往算法未覆盖的 

按大小，也能按颜色，甚至 

能按产地聚类. 某种标准从而设计出新算法 [ Estivill - Castro , 2002]. 相对于机器学习其他分支 

来说，聚类的知识还不够系统化，因此著名教科书 [ Mitchell , 1997] 中甚至没有 
关于聚类的章节.但聚类技术本身在现实任务中非常重要，因此本章勉强采用 
了 “列举式”的叙述方式，相较于其他各章给出了更多的算法描述.关于聚类 




.8.7.6.5.4.3 
0 . 0 . 0 . 0 . 0 . 0 . 
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距离度量学习参见 10.6 
节 ■ 


凸形簇结构即形似“椭 
球”的溪结构. 

Bregman 距离_亦称 
Bregman divergence , 是一 
类不满足对称性和直递性 
的距离. 

降维参见第10章. 


更多的内容，可参阅这方面的专门书籍和综述文章如 [Jain and Dubes , 1988; 
Jain et al .，1999; Xu and Wunsch II , 2005; Jain ，2009] 等. 

聚类性能度量除 9.2 节的内容外，常见的还有 F 值、互信息 （mutual 
information )、 平均廓宽 (average silhouette width ) [ Rousseeuw , 1987] 等，可 
参阅 [Jain and Dubes , 1988; Halkidi et al ., 2001; Maulik and Bandyopadhyay , 
2002 ]. 

距离计算是很多学习任务的核心技术.闵可夫斯基距离提供了距离计算的 
一般形式.除闵可夫斯基距离之外，内积距离、余弦距离等也很常用，可参阅 
[Deza and Deza , 2009]. MinkovDM 在 [Zhou and Yu , 2005] 中正式给出.模式 
识别、图像检索等涉及复杂语义的应用中常会涉及非度量距离 [Jacobs et al , 
2000; Tan et al ., 2009]. 距离度量学习可直接嵌入到聚类学习过程中 [Xing et 
al ., 2003]. 

k 均值算法可看作高斯混合聚类在混合成分方差相等、且每个样本仅指 
派给一个混合成分时的特例.该算法在历史上曾被不同领域的学者多次重 
新发明，如 Steinhaus 在 1956年 、 Lloyd 在 1957年 、 McQueen 在 1967年等 
[Jain and Dubes , 1988; Jain , 2009]. k 均值算法有大量变体，如 fc-medoids 算 
法 [Kaufman and Rousseeuw , 1987] 强制原型向量必为训练样本， / c - modes 算 
法 [ Huang , 1998] 可处理离散属性 ， Fuzzy C-means (简称 FCM ) [ Bezdek , 1981] 
则是“软聚类” (soft clustering ) 算法，允许每个样本以不同程度同时属于多个 
原型.需注意的是， A : 均值类算法仅在凸形簇结构上效果较好.最近研究表明, 
若采用某种 Bregman 距离， 则可显著增强此类算法对更多类型簇结构的适用性 
[Banerjee et al ., 2005]. 引入核技巧则可得到核&均值 (kernel Axmeans ) 算法 
[Scholkopf et al ., 1998], 这与谱聚类 (spectral clustering ) [von Luxburg , 2007] 
有密切联系 [Dhillon et al ., 2004], 后者可看作在拉普拉斯特征映射 (Laplacian 
Eigenmap ) 降维后执行&均值聚类. 聚类簇数 Ic 通常需由用户提供，有一些启 
发式用于自动确定 A ; [Pelleg and Moore , 2000; Tibshirani et al ., 2001], 但常用 
的仍是基于不同 A ; 值多次运行后选取最佳结果. 

LVQ 算法在每轮迭代中仅更新与当前样本距离最近的原型向量.同时 
更新多个原型向量能显著提高收敛速度，相应的改进算法有 LVQ 2、 LVQ 3 等 
[ Kohonen , 2001]. [McLachlan and Peel , 2000] 详细介绍了高斯混合聚类，算法 
中 EM 迭代优化的推导过程可参阅 [ Bilmes , 1998; Jain and Dubes , 1988]. 

采用不同方式表征样本分布的紧密程度，可设计出不同的密度聚类算 
法，除 DBSCAN [Ester et al ., 1996] 夕卜，较常用的还有 OPTICS [Ankerst et al ., 
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亦称 outlier detection . 


1999 ]、 DENCLUE [Hinneburg and Keim ，1998] 等 . AGNES [Kaufman and 
Rousseeuw , 1990] 采用了自底向上的聚合策略来产生层次聚类结构，与之相 
反 ， DIANA [Kaufman and Rousseeuw , 1990] 则是采用自顶向下的分拆策略. 
AGNES 和 DIANA 都不能对已合并或已分拆的聚类簇进行回溯调整，常用的 
层次聚类算法如 BIRCH [Zhang et al ., 1996 ]、ROCK [Guha et al , 1999] 等对 
此进行了改进. 


聚类集成 (clustering ensemble ) 通过对多个聚类学习器进行集成，能有效 
降低聚类假设与真实聚类结构不符、聚类过程中的随机性等因素带来的不利 
影响，可参阅 [ Zhou , 2012] 第 .7 章. 

异常检测 （anomaly detection ) [Hodge and Austin , 2004; Chandola et 
al ., 2009] 常借助聚类或距离计算进行，如将远离所有簇中心的样本作为 
异常点，或将密度极低处的样本作为异常点.最近有研究提出基于“隔离 
性” （ isolation ) 可快速检测出异常点 [Liu et al ., 2012]. 
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西瓜数据集 4.0 见 p .202 
表 9.1. 


即凸形簇结构. 


习题 


9.1 试 证明 ： p > 1时,闵可夫斯基距离满足距离度量的四条基本性质; 
0 < p < 1时，闵可夫斯基距离不满足直递性，但满足非负性、同一 
性、对称性; p 趋向无穷大时，闵可夫斯基距离等于对应分量的最大绝 
对距离，即 

/ n 



9.2 同一样本空间中的集合 X 与 Z 之间的距离可通过“豪斯多夫距 
离” (Hausdorff distance ) 计算： 


distn (-^, Z ) = max ( disth ( X , Z ), disth (^, X )) 


(9.44) 


其中 


disth ( X , Z ) = max min I | a ? — z\\2 

xGX zEZ 


(9.45) 


试证明：豪斯多夫距离满足距离度量的四条基本性质. 


9.3 试析 /c 均值算法能否找到最小化式 (9.24) 的最优解. 

9.4 试编程实现 A : 均值算法，设置三组不同的 / c 值、三组不同初始中心点， 
在西瓜数据集 4.0 上进行实验比较，并讨论什么样的初始中心有利于 
取得好结果. 


9.5 基于 DBSCAN 的概念定义，若 ® 为核心对象 ，由® 密度可达的所有 
样本构成的集合为 X . 试 证明： X 满足连接性 (9.39) 与最大性 (9.40). 

9.6 试析 AGNES 算法使用最小距离和最大距离的区别. 

9.7 聚类结果中若每个簇都有一个凸包(包含簇样本的凸多面体)，且这些 
凸包不相交，则称为凸聚类.试析本章介绍的哪些聚类算法只能产生 
凸聚类，哪些能产生非凸聚类. 

9.8 试设计一个聚类性能度量指标，并与 9.2 节中的指标比较. 

9.9* 试设计一个能用于混合属性的非度量距离. 


9.10* 试设计一个能自动确定聚类数的改进 A ; 均值算法，编程实现并在西瓜 
数据集 4.0 上 运行. 
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休息一会儿 


今立陶宛的考纳斯 

(Kaunas). 


哥尼斯堡是著名的“七 
桥问题”发源地，今俄罗 
斯加里宁格勒. 


小故事：曼哈顿距离与赫尔曼•闵可夫斯基 

曼哈顿距离 (Manhattan distance) 亦称“出租车几 
何” （Taxicab geometry), 是德国大数学家赫尔曼•闵可 
夫斯基 (Hermann Minkowski, 1864 1909) 所创的词汇，其 

得名是由于该距离标明了几何度量空间中两点在标准坐标 
系上的绝对轴距总和，这恰是规划为方形区块的城市里两点 
之间的最短行程，例如从曼哈顿的第五大道与 33 街交点前往第三大道与 23 街 
交点，需走过 （5 - 3) + (33 — 23) = 12 个街区 • 



闳可夫斯基出生于俄国亚力克索塔斯 (Alexotas) 的一个犹太人家庭，由于 
当时俄国政府迫害犹太人，他八岁时随全家移居普鲁士哥尼斯堡，与后来成为 
大数学家的希尔伯特一河之隔.闽可夫斯基从小就是著名神童，他熟读莎士比 
亚、席勒和歌德的作品，几乎能全文背诵《浮士德》；八岁进入预科学校，仅用 
五年半就完成了八年的 学业； 十七岁时建立了 n 元二次型的完整理论体系，解 


四维时空亦称“闵可夫 
斯基时空”或“闵可夫斯 
基空间”. 


决了法国科学院公开悬赏的数学难题. 1908 年 9 月他在科隆的一次学术会议上 
做了《空间与时间》的著名演讲，提出了四维时空理论，为广义相对论的建立 
开辟了道路.不幸的是，三个月后他死于急性阑尾炎. 


1896 年闵可夫斯基在苏黎世大学任教期间，是爱因斯坦的数学老师.诺贝 
尔物理学奖得主玻恩曾说，在闵可夫斯基的数学工作中找到了 “相对论的整个 
武器库”.闽可夫斯基去世后，其生前好友希尔伯特整理了他的遗作，于 1911 
年出版了《闽可夫斯基全集》.闵可夫斯基的哥哥奥斯卡是“胰岛素之父”， 
侄子鲁道夫是美国著名天文学家. 
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所谓“近朱者赤, 
者黑”. 


参见 8.4 节. 


10.1 &近 邻学习 

A: 近邻 .Nearest Neighbor, 简称 &NN) 学习是一种常用的监督学习方法， 
其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最 
靠近的 A 个训练样本，然后基于这 & 个 “ 邻居 ” 的信息来进行预测 . 通常，在分 
类任务中可使用 “ 投票法 ” ，即选择这 A : 个样本中出现最多的类别标记作为预 
测 结果； 在回归任务中可使用 “ 平均法 ” ，即将这 A : 个样本的实值输出标记的 
平均值作为预测 结果； 还可基于距离远近进行加权平均或加权投票，距离越近 
的样本权重越大 . 

与前面介绍的学习方法相比， A: 近邻学习有一个明显的不同 之处： 它似乎 
没有显式的训练过程！事实上，它是 “ 懒惰学习 ” （lazy learning) 的著名代表 , 
此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到 
测试样本后再进行处理；相应的，那些在训练阶段就对样本进行学习处理的方 
法，称为 “ 急切学习 ” (eager learning). 

图 10 .1 给出了 A; 近邻分类器的一个示意图 . 显然，是一个重要参数 ，当 & 
取不同值时，分类结果会有显著不同 . 另一方面，若采用不同的距离计算方式， 
则找出的 “ 近邻 ” 可能有显著差别，从而也会导致分类结果有显著不同 . 

暂且假设距离计算是 “ 恰当 ” 的，即能够恰当地找出 A: 个近邻，我们来对 
“ 最近邻分类器 ” (1NN, 即 & = 1) 在二分类问题上的性能做一个简单的讨论 . 


-> ?判别为+ 

k = 3 

?判别为- 

k = 5 

-> ?判别为+ 



图 10.1 A : 近邻分类器示意图.虚线显示出等 距线； 测试样本在 k = l^k = b 时被判 
别为正例， k = 3 时被判别为反例. 
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贝叶斯最优分类器参见 
7.1 节. 


为便于初学者理解，本 
节仅做了一个简化讨论， 
更严格的分析参阅 [Cover 
and Hart, 1967]. 


作为参 照量： 宇宙间基 
本粒子的总数约为10 80 
(一粒灰尘中含有几十亿 
个基本粒子). 
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给定测试样本若其最近邻样本为 A 则最近邻分类器出错的概率就是 Z 
与 Z 类别标记不同的概率，即 

P ( err ) = 1 — ^P(c | x ) P{c \ z ). (10.1) 

cey 

假设样本独立同分布，且对任意 ® 和任意小正数在 a 附近5距离范围 
内总能找到一个训练 样本； 换言之，对任意测试样本，总能在任意近的范围内找 
到式 (10.1) 中的训练样 本;^ 令 c* = argmax e€； y P(c | 表示贝叶斯最优分类 
器的结果，有 

P ( err ) = 1 — Y , P { c \ x ) P { c \ z ) 

cey 

1 — y^p 2 (c I x ) 

cey 

<1 - P 2 (c* I x ) 

=(1 + P(c* |®))(1- P(c* I x )) 

• * * . •• 

彡 2 x (1 —^( c* I ®)) • (10.2) 

于是我们得到了有点令人惊讶的结论：最近邻分类器虽简单，但它的泛化错误 
率不超过贝叶斯最优分类器的错误率的两倍！ 

10.2 低维嵌入 

. 上一节的讨论是基于一个重要假设：任意测试样本 a ? 附近任意小的5距 
离范围内总能找到一个训练样本，即训练样本的釆样密度足够大，或称为“密 
采样” (dense sample). 然而，这个假设在现实任务中通常很难满足，例如若 
5 = 0.001，仅考虑单个属性，则仅需1000个样本点平均分布在归一化后的属 
性取值范围内，即可使得任意测试样本在其附近 0.001 距离范围内总能找到一 
个训练样本，此时最近邻分类器的错误率不超过贝叶斯最优分类器的错误率 
的两倍.然而，这仅是属性维数为1的情形，若有更多的属性，则情况会发生 
显著变化.例如假定属性 维数为20,若要求样本满 足密釆样条件，则至少需 
(10 3 ) 20 - 10 60 个样本.现实应用中属性维数经常成千上万，要满足密釆样条件 
所需的样本数目是无法达到的天文数字.此外，许多学习方法都涉及距离计算, 
而高维空间会给距离计算带来很大的麻烦，例如当维数很高时甚至连计算内积 





10.2 低维嵌入 


都不再容易. 
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[ Bellman , 1957] 最早提 
出，亦称“维数诅咒”、 

“维数危机”. 


另一个重要途径是特征 
选择,参见第11章 • 


事实上，在高维情形下出现的数据样本稀疏、距离计算困难等问题， 
是所有机器学习方法共同面临的严重障碍，被称为“维数灾难” (curse of 
dimensionality ). 

缓解维数灾难的一'个重要途径是降维 (dimension reduction ) ,亦称“维数 
约简”，即通过某种数学变换将原始高维属性空间转变为一个低维“子空 
间” ( subspace ), 在这个子空间中样本密度大幅提高，距离计算也变得更为容 
易.为什么能进行降维？这是因为在很多时候，人们观测或收集到的数据样本 
虽是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中 
的一个低维“嵌入” （ embedding ). 图 10.2 给出了一个直观的例子.原始高维 
空间中的样本点，在这个低维嵌入子空间中更容易进行学习. 



( a ) 三维空间中观察到的样本点 （ b ) 二维空间中的曲面 


图 10.2 低维嵌入示意图 

若要求原始空间中样本之间的距离在低维空间中得以保持，如图 10.2 所 
示，即得到“多维缩放” (Multiple Dimensional Scaling , 简称 MDS ) [Cox and 
Cox , 2001] 这样一种经典的降维方法.下面做一个简单的介绍. 

假定 m 个样本在原始空间的距离矩阵为 D € M mxm , 其第 f 行 j 列的元 
素 distij 为样本&到％的距离.我们的目标是获得样本在 W 维空间的表示 
Z G R d，xm , d! ^ d, 且任意两个样本在/维空间中的欧氏距离等于原始空间中 
的距离，即 — 巧|| = distij• 

令 B = Z T Z 6 其中 B 为降维后样本的内积矩阵， ~ •，有 


distij = \\zi \\ 2 + \\zj 


^ Z J Z 3 


ba bjj — 26^jf . 


( 10 . 3 ) 
























由此即可通过降维前后保持不变的距离矩阵 D 求取内积矩阵 B . 

对矩阵 B 做特征值分解 (eigenvalue decomposition)，B = VAV T , 其中 
A = diag ( Ai , A 2 , 为特征值构成的对角矩阵 5 Ai ^ A 2 > ... ^ A d , V 

为特征向量矩阵.假定其中有 cf 个非零特征值，它们构成对角矩阵= 
diag ( Ai 5 A 2 ,... ， A d *)， 令表示相应的特征向量矩阵，则 Z 可表达为 

z = aI / 2 vJ eR d * xm . (io.il) 

在现实应用中为了有效降维，往往仅需降维后的距离与原始空间中的距离 
尽可能接近，而不必严格相等.此时可取/《 d 个最大特征值构成对角矩阵 
A - diag ( Ai , A 2 ,... ， A &), 令 V 表示相应的特征向量矩阵，则 Z 可表达为 
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为全零向量. 为便于讨论，令降维后的样本 z 被中心化，即 YZi z i 一- 

= 0. 显然，矩阵 B 

的行与列之和均为零，即 hj =: 

& m =1 ~ = o .易知 


m 

distfj = 

= tr ( B ) + rnbjj , 

(10.4) 

i=l 



m 

dist^j - 

= tr ( B ) + mbu , 

(10.5) 

, m m 

dist^j = 2 m tr ( B ) ， 

(10.6) 

i=l j=l 




其中 tr (.) 表示矩阵的迹 ( trace )， tr ( B ) = J 2 T=i lL . 令 


distf = 

1 m 

— distlj , 
i=i 

(10.7) 

dist 2 j = 

1=1 

(10.8) 

distj .= 

1 mm 

dist 】j ， 

(10.9) 


i=i j=i 


由式 (10.3) 和式 (10.4) 〜 (10.9) 可得 
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10.3 主成分分析 


通常令/《 d . 


亦称“主分量分析 
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z = a 1 / 2 v t e R d，xm . (10.12) 

图 10.3 给出了 MDS 算法的描述. 


输入： 距离矩阵 D e R mxm , 其元素 disUj 为样本％到巧的距离； 

低维空间维数 cf . 

~i-j ■ I 

过程： 

1: 根据式 (10. 7 ) 〜 (10. 9 ) 计算 disff .， dist 2 j , dist 2 .; 

2: 根据式 (10.10) 计算矩阵 B ; 

3: 对矩阵 B 做特征值 分解； 

4:取人为 cf 个最大特征值所构成的对角矩阵, ▽ 为相应的特征向量矩阵. 

输出：矩阵 VA 1 / 2 eR mxd '， 每行是一个样本的低维坐标 _ 

图 10.3 MDS 算法 

一般来说，欲获得低维子空间，最简单的是对原始高维空间进行线性变换. 
给定 d 维空间中的样本 X = ( cci 5 £ C 2 ,.. . G R dxm ， 变换之后得到 d ’ 彡 d 维 
空间中的样本， 

Z = W t ； X 5 (10.13) 

其中 AV G R dxd ， 是变换矩阵 ， Z e R d ， xm 是样本在新空间中的表达. 

变换矩阵界可视为 d f 个 d 维基向量，；^ = W T Xi 是第 i 个样本与这/个 
基向量分别做内积而得到的/维属性向量.换言之，；^是原属性向量&在新 
坐标系 { wi , W 2, - - - , W d f } 中的坐标 向量. 若 Wi 与 Wj ( i 妾 j ) 正交，则新坐标 
系是一个正交坐标系，此时 W 为正交变换.显然，新空间中的属性是原空间中 
属性的线性组合. 

基于线性变换来进行降维的方法称为线性降维方法，它们都符合 
式 (10.13) 的基本形式，不同之处是对低维子空间的性质有不同的要求，相 
当于对 W 施加了不同的约束.在下一节我们将会看到，若要求低维子空间对样 
本具有最大可分性，则将得到一种极为常用的线性降维方法. 

对降维效果的评估，通常是比较降维前后学习器的性能，若性能有所提高 
则认为降维起到了作用.若将维数降至二维或三维，则可通过可视化技术来直 
观地判断降维效果. 

10.3 主成分分析 

主成分分析 (Principal Component Analysis ， 简称 PCA ) 是最常用的一种 
降维方法.在介绍 PCA 之前，不妨先考虑这样一个 问题: 对于正交属性空间中 



230 


第 10 章降维与度量学习 


const 是一个常数. 


的样本点，如何用一'个超平面(直线的局维推广)对所有样本进彳丁恰当的表达? 
容易想到，若存在这样的超平面，那么它大概应具有这样的性质： 

• 最近重 构性： 样本点到这个超平面的距离都足够近； 

• 最大可分性：样本点在这个超平面上的投影能尽可能分开. . 


有趣的是，基于最近重构性和最大可分性，能分别得到主成分分析的两种 
等价推导.我们先从最近重构性来推导. 

假定数据样本进行了中心化，即 Ei ^ = 0;再假定投影变换后得到的新坐 
标系为 { wi , W 2) ... ，叫}，其中斯是标准正交基向量，|卜川2 = 1, = 0 

若丢弃新坐标系中的部分坐标，即将维度降低到/ < d , 则样本点叫 
在低维坐标系中的投影是;^ = ( Zil ； Zi 2] . . .； Z id f ), 其中句=是叫在低 
维坐标系下第 j 维的坐标.若基于 々来 重构％，则会得到屯= 成1 句，. 

考虑 整个训 练集，原样本点&与基于投影重构的样本点屯之间的 距离为 


E 

2=1 


z ij w j 




X, 


f=l 


Zi T Zi — 2 ^2 Zi T W T Xi + const 


i=l 


i=l 



(10.14) 


根据最近重构性，式 (10.14) 应被最小化,考虑到％是标准正交基, I ：, x iX J 


是协方差矩阵，有 


imn - tr ( W T XX T W ). 

(10.15) 

s . t . W T W = I . 


这就是主成分分析的优化目标. 



从最大可分性出发，能得到主成分分析的另一种解释.我们知道，样本点 
&在新空间中超平面上的投影是 W T ^, 若所有样本点的投影能尽可能分开, 
则应该使投影后样本点的方差最大化，如图 10.4 所示. 

投影后样本点的方差是 Ei W T x i xfW 1 于是优化目标可写为 


max tr ( W T XX T W ) ： (10.16) 

s . t . W T W = I ， 
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实践中常通过对 X 进行 
奇异值分解来代替协方差 
矩阵的特征值分解. 

PCA 也可看作是逐一选 
取方差最大方向，即先对 
协方差矩阵做 
特征值分解，取最大特征 
值对应的特征向量; 
再对 K XixJ - Xiwiw'l 
做特征值分解，取最大特 
征值对应的特征向量 tl ；2; 
. 由 1 W 各分量正交及 

^ XiX ^ = ^2 x ^ w 3 w J 

i=l jz=z\ 

可知，上述逐一选取方差 
最大方向的做法与直接选 
取最大个特征值等价. 



图 10.4 使所有样本的投影尽可能分开(如图中红线所示)，则需最大化投影点的方差 


显然，式 (10.16) 与 (10.15) 等价. 

对式 (10.15) 或 (10. i 6) 使用拉格朗日乘子法可得 

XX T W = AW , (10.17) 


于是，只需对协方差矩阵 XX T 进行特征值分解,将求得的特征值排序: 
Ai ^ A 2 ^ ^ A d , 再取前^个特征值对应的特征向量构成 I = ( iin , 

W2 ,.. 这就是主成分分析的解. PCA 算法描述如图 10.5 所示. 


输入：样本集 D = {以， CC 2, ... ， X m }; 
低维空间维数 


过程： 

1：对所有样本进行中心化： Xi^r-Xi- 
2:计算样本的协方差矩阵 XX T ; 


3:对协方差矩阵 XX T 做特征值 分解； 

4：取最大的个特征值所对应的特征向量 

输出： 投影矩阵 W =(1(^，切 2 ，...，脚). 


图 10.5 PCA 算法 


降维后低维空间的维数 cf 通常是由用户事先指定，或通过在/值不同的 
低维空间中对近邻分类器(或其他开销较小的学习器）进行交叉验证来选取 
较好的/值.对 PCA , 还可从重构的角度设置一个重构阈值，例如 t = 95%,然 
后选取使下式成立的最小 I 值： 


EtiA. 

Eti ^ 


^ t . 


(10.18) 
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保存均值向量是为了通 
过向量减法对新样本同样 
进行中心化. 


参见 6.6 节. 


PCA 仅需保留 W 与样本的均值向量即可通过简单的向量减法和矩阵-向 
量乘法将新样本投影至低维空间中.显然，低维空间与原始高维空间必有不同, 
因为对应于最小的 d - d ! 个特征值的特征向量被舍弃了，这是降维导致的结果. 
但舍弃这部分信息往往是必要的： 一 方面，舍弃这部分信息之后能使样本的采 
样密度增大，这正是降维的重要 动机； 另一方面，当数据受到噪声影响时，最小 
的特征值所对应的特征向量往往与噪声有关，将它们舍弃能在一定程度上起到 
去噪的效果. 


10.4 核化线性降维 


线性降维方法假设从高维空间到低维空间的函数映射是线性的，然而，在 
不少现实任务中，可能需要非线性映射才能找到恰当的低维嵌入.图 10.6 给出 
了一个例子，样本点从二维空间中的矩形区域采样后以 S 形曲面嵌入到三维空 
间，若直接使用线性降维方法对三维空间观察到的样本点进行降维，则将丢失 
原本的低维结构.为了对“原本采样的”低维空间与降维后的低维空间加以区 
另 1 J ， 我们称前者为“本真” （ intrinsic ) 低维空间. 



(a) 三维空间中的观察 （ b) 本真二维结构 （ c ) PCA 降维结果 

图 10.6 三维空间中观察到的 3(X)0 个样本点，是从本真二维空间中矩形区域采样后 
以 S 形曲面 嵌入， 此情形下线性降维会丟失低维结构.图中数据点的染色显示出低维 
空间的结构. 


非线性降维的一种常用方法，是基于核技巧对线性降维方法进行“核 
化” （ kernelized ). 下面我们以核主成分分析 (Kernelized PCA , 简称 KPCA ) 
[Scholkopf et al ., 1998] 为例来进行演示. 


假定我们将在高维特征空间中把数据投影到由 M 确定的超平面上，即 


PCA 欲求解 



W-AW , 


(10.19) 


















10.4 核化线性降维 


其中 A 是样本点 A 在商维特征空间中的像.易知 
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W 



m 

^ZiOLi 


( 10 . 20 ) 


其中叫==假定；^是由原始属性空间中的样本点通过映射0产生， 
即々 = 小 ㈤， i = …， m . 若少 能被显式表达出来,则通过它将样本映射至 

高维特征空间，再在特征空间中实施 PCA 即可.式 (10.19) 变换为 


) W = AW 


A=1 


式 (10.20) 变换为 




i=l 


'般情形下，我们不清楚0的具体形式，于是引入核函数 


K(x il X j )=(j)(x i ) T (t){x j ) 


( 10 . 21 ) 


( 10 . 22 ) 


(10.23) 


将式 (10.22) 和 (10.23) 代入式 (10.21) 后化简可得 

KA = AA , (10.24) 

其中 K 为 k 对应的核矩阵， ( K)ij = A = ( ai ； a 2 ;...; a m ). 显然， 

式 (10.24) 是特征值分解问题，取 K 最大的 (f 个特征值对应的特征向量即可. 

对新 样本％ 其投影后的第 j (j = l ,2, …， d ，) 维坐标为 

m 

Zj = = y^a{(l)(xi) T (j)(x) 

i=l 

m 

= y y ^ j oP i ^{ xj , x ) ， (10.25) 

i=l 

其中卬已经过规范化， 4 是叫 的第 j 个分量.式 (10.25) 显示出，为获得投影 
后的坐标， KPCA 需对所有样本求和，因此它的计算开销较大. 
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10.5 流形学习 

流形学习 (manifold learning ) 是一类借鉴了拓扑流形概念的降维方法. 
“流形”是在局部与欧氏空间同胚的空间，换言之，它在局部具有欧氏空间的 
性质，能用欧氏距离来进行距离计算.这给降维方法带来了很大的 启发： 若低 
维流形嵌入到高维空间中，则数据样本在高维空间的分布虽然看上去非常复杂, 
但在局部上仍具有欧氏空间的性质，因此，可以容易地在局部建立降维映射关 
系，然后再设法将局部映射关系推广到全局.当维数被降至二维或三维时，能对 
数据进行可视化展示，因此流形学习也可被用于可视化.本节介绍两种著名的 
流形学习方法. 

10.5.1 等度量映射 

等度量映射 (Isometric Mapping , 简称 Isomap ) [Tenenbaum et al ., 2000] 的 
基本出发点，是认为低维流形嵌入到高维空间之后，直接在高维空间中计算直 
线距离具有误导性，因为高维空间中的直线距离在低维嵌入流形上是不可达的. 
如图 10.7 ⑷所示，低维嵌入流形上两点间的距离是“测地线” （ geodesic ) 距离: 
想象一只虫子从一点爬到另一点，如果它不能脱离曲面行走，那么图 10.7( a ) 中 
的红色曲线是距离最短的路径，即 S 曲面上的测地线，测地线距离是两点之间 
的本真距离.显然，直接在高维空间中计算直线距离是不恰当的. 



(a) 测地线距离与高维直线距离 （b) 测地线距离与近邻距离 

图 10.7 低维嵌入流形上的测地线距离（红色)不能用高维空间的直线距离计算，但能 
用近邻距离来近似 


那么，如何计算测地线距离呢？这时我们可利用流形在局部上与欧氏空间 
同胚这个性质，对每个点基于欧氏距离找出其近邻点，然后就能建立一个近邻 
连接图，图中近邻点之间存在连接，而非近邻点之间不存在连接，于是，计算两 
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1972年图灵奖得主 E . 
W . Dijkstra 和 1978年图灵 
奖得主 R . Floyd 分别提出 
的著名算法，参阅数据结 
构教科书. 


MDS 参见 10.2 节. 


点之间测地线距离的问题，就转变为计算近邻连接图上两点之间的最短路径问 
题.从图 10.7( b ) 可看出，基于近邻距离逼近能获得低维流形上测地线距离很好 
的近似. 

在近邻连接图上计算两点间的最短路径，可采用著名的 Dijkstm 算法或 
Floyd 算法，在得到任意两点的距离之后，就可通过 10.2 节介绍的 MDS 方法来 
获得样本点在低维空间中的坐标.图 10.8 给出了 Isomap 算法描述. 


输入：样本集 D = {£Ci,X 2 ,..., Xm}] 

近邻参数 
低维空间维数 

过程： 

1： for z = 1,2, ... ,m do 
2: 确定近邻； 

3: Xi 与 k 近邻点之间的距离设置为欧氏距离，与其他点的距离设置为无穷大; 

4: end for 

5:调用最短路径算法计算任意两样本点之间的距离 dist (^,^); 

6:将 dist (^,^) 作为 MDS 算法的 输入； 

7: return MD !^ 算法的输出 

输出：样本集乃在低维空间的投影/^{以，;^，...，;^^^. _ 

图 10.8 Isomap 算法 


需注意的是， Isomap 仅是得到了训练样本在低维空间的坐标，对于新样本， 
如何将其映射到低维空间呢？这个问题的常用解决方案,是将训练样本的高维 
空间坐标作为输入、低维空间坐标作为输出，训练一个回归学习器来对新样本 
的低维空间坐标进行预测.这显然仅是一个权宜之计，但目前似乎并没有更好 
的办法. 

对近邻图的构建通常有两种做法，一种是指定近邻点个数，例如欧氏距离 
最近的&个点为近邻点，这样得到的近邻图 称为& 近 邻图； 另一种是指定距离 
阈值 e ， 距离小于 e 的点被认为是近邻点，这样得到的近邻图称为 e 近邻图.两 
种方式均有不足，例如若近邻范围指定得较大，则距离很远的点可能被误认为 
近邻，这样就出现“短路” 问题; 近邻范围指定得 较小， 则图中有些区域可能与 
其他区域不存在连接，这样就出现“断路”问题.短路与断路都会给后续的最 
短路径计算造成误导. 

* 

10.5.2 局部线性嵌入 

与 Isomap 试图保持近邻样本之间的距离不同，局部线性嵌入 (Locally 
Linear Embedding , 简称 LLE ) [Roweis and Saul , 2000] 试图保持邻域内样本之 
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图 10.9 高维空间中的样本重构关系在低维空间中得以保持 


间的线性关系.如图 10.9 所示,假定样 本点％ 的坐标能通过它的邻域样本 
Xk , X t 的坐标通过线性组合而重构出来，即 


~ ^ik^k ? 


(10.26) 


LLE 希望式 (10.26) 的关系在低维空间中得以保持. 

LLE 先为每个样本^找到其近邻下标集合(％，然后计算出基于中的 
样本点对 A 进行线性重构的系数 


mm 

Wl,W2,：., 


E 

i=l 


Xi ~~ ^ Xj 

j^Qi 


2 


2 


s.t. E 


W 




j^Qi 


(10.27) 


其中和均为已知，令 Cjfc = ( a ?《— Xj) T (xi - Xk ), wij 有闭式解 


-l 


w ij 


E ^jk 
keQj 

~ E ~ c ^ 


(10.28) 





LLE 在低维空间中保持吻不变，于是&对应的低维空间坐标&可通过 
下式 求解： ". " 2 


min 

之 1，之2 ，•• •，& 7 TI 


E 



Z i-J2 Wi j Z j 

j^Qi 


(10.29) 


式 (10.27) 与 (10.29) 的优化目标同形，唯一的区别是式 (10.27) 中需确定的是 
w ir 而式 (10.29) 中需确定 的是叫 对应的低维空间坐标為. 
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令 Z = Oh 之2, ... ，之 m ) G R d ’ xm , (w)^- = Wij, 

M= (I —W) T (I —W) 


则式 (10.29) 可重写为 


m z in tr ( ZMzT )， 

s . t . ZZ T — I . 


(10.30) 


(10.31) 


式 (10.31) 可通过特征值分解 求解： M 最小的 ( f 个特征值对应的特征向量组成 
的矩阵即为 Z T . 

LLE 的算法描述如图 10.10 所示.算法第4行显 示出： 对于不在样本％邻 
域区域的样本％,无论其如何变化都对^和;^没有任何影响；这种将变动限 
制在局部的思想在许多地方都有用. 


输入： 样本集 D = { a ? i , x 2 ,..., x m }) 

近邻参数 
低维空间维数 cf . 

过程： 

1 ： for i = 1,2,…， m do 
2:确定化的 近邻； 

3: 从式 (10.27) 求得 购^， j € Qi ; 

4: 对于 J •貧 Qi , 令购 j = 0; 

5： end for 

6： 从式 “0.30) 得到 M ; 

7: 对 M 进行特征值 分解； 

8： return M 的最小个特征值对 应的特 征向量 
输出： 样本集 D 在低维空间的投影 Z = {z 1 ,z 2 ^..,z m } 


图 10.10 LLE 算法 


10.6 度量学习 


亦称“距离度量学习” 

(distance metric learning ). 


在机器学习中，对高维数据进行降维的主要目的是希望找到一个合适的低 
维空间，在此空间中进行学习能比原始空间性能更好.事实上，每个空间对应了 
在样本属性上定义的一个距离度量，而寻找合适的空间，实质上就是在寻找一 
个合适的距离度量.那么，为何不直接尝试“学习”出一个合适的距离度量呢? 
这就是度量学习 (metric learning ) 的基本动机. 
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即欧氏距离的平方，这 
是为了后面推导的便利. 


马氏距离以印度数学 
家 P . C . Mahalanobis 命名. 
标准马氏距离中 M 是协 
方差矩阵的逆，即 M = 
S - 1 ; 在度量学习中 M 被 
赋予更大的灵活性. 


第10章降维与度量学习 


欲对距离度量进行学习，必须有一个便于学习的距离度量表达形式 . 9.3 节 
给出了很多种距离度量的表达式，但它们都是“固定的”、没有可调节的参数， 
因此不能通过对数据样本的学习来加以改善.为此，我们先来做一个推广. 

对两个 d 维样本％和％，它们之间的平方欧氏距离可写为 

distl d { x h Xj ) = \\xi - xjWl = dist 2 ij x + distf j2 + …+ distj jd , (10.32) 

其中 dist ^ k 表示 叫与％ 在第 / c 维上的距离.若假定不同属性的重要性不同， 
则可引入属性权重忉，得到 

dist^ ed (£Ci, Xj) = ||私 _ XjWl = wi - dist^ + W2 - disi^, 2 + ... + Wd- dist^ d 

= (xi — Xj) T W(xi — Xj) , (10.33) 

其中斯彡0, W = dmg ( w ) 是一个对角矩阵， ( W)u = Wi. 

式 (10.33) 中的界可通过学习确定，但我们还能再往前走一步： AV 的非对 
角元素均为零，这意味着坐标轴是正交的，即属性之间无关;但现实问题中往往 
不是这样，例如考虑西瓜的“重量”和“体积”这两个属性，它们显然是正相 
关的，其对应的坐标轴不再正交.为此，将式 (10.33) 中的 W 替换为一个普通的 
半正定对称矩阵 M ， 于是就得刹了马氏距离 (Mahalanobis distance ) 

^ st mah ( x iy x j ) = ( x i - Xj) T M(Xi - Xj) = \\xi - Xj^ , (10.34) 

其中 M 亦称“度量矩阵”，而度量学习则是对 M 进行学习.注意到为了保持 
距离非负且对称， M 必须是(半)正定对称矩阵，即必有正交基 P 使得 M 能写 

为 M = PP t . 

对 M 进行学习当然要设置一个目标.假定我们是希望提高近邻分类器 
的性能，则可将 M 直接嵌入到近邻分类器的评价指标中去，通过优化该性能 
指标相应地求得 M . 下面我们以近邻成分分析 (Neighbourhood Component 
Analysis , 简称 NCA ) [Goldberger et al .，2005] 为例进行讨论. 

近邻分类器在进行判别时通常使用多数投票法，邻域中的每个样本投1票, 
邻域外的样本投0票.不妨将其替换为概率投票法.对于任意样本 ％， 它对& 
分类结果影响的概率为 
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留一法参见 2 . 2.2 节. 


可用随机梯度下降法求 

解 [Goldberger etal ., 2005】. 


At 


Pij 



Ez ex P 


—尤 l 


2 
M 


(10.35) 


当 S = j 时， Pij 最大.显然， CCj 对 A 的影响随着它们之间距离的增大而减小. 
若以留一法 ( L 00) 正确率的最大化为目标，则可 计算化 的留一法正确率，即 
它被自身之外的所有样本正确分类的概率为 


Pi = ^ Pij , (10.36) 

jeQi 


其中 A 表示与&属于相同类别的样本的下标集合.于是，整个样本集上的留 
一法正确率为 

mm 

E … EE Pij • (10.37) 

i=l i=l jEfli 

将式 (10.35) 代入 (10.37)， 再考虑到 M = PP T ， 则 NCA 的优化目标为 


min 1 
p 


exp 


f f V 

EE 

i=l jEfli Ez exp (- ||P T ^ 


P r Xi — P T a?j 


P T x t 


(10.38) 


求解式 (10.38) 即可得到最大化近邻分类器 L 00 正确率的距离度量矩阵 M . 

实际上，我们不仅能把错误率这样的监督学习目标作为度量学习的优化目 
标，还能在度量学习中引入领域知识.例如，若已知某些样本相似、某些样本 
不相似，则可定义“必连” （ must - link ) 约束集合* M 与“勿连” （ cannot - link ) 约 
束集合 C ， 巧 ） G 表示 a 与巧相似，（而，叫 ） G C 表示化与叫不相似. 
显然，我们希望相似的样本之间距离较小，不相似的样本之间距离较大，于是可 
通过求解下面这个凸优化问题获得适当的度量矩阵 M [Xing et al ., 2003]: 


min 

M 

E 

M 



s . t . 

Ei 

尤 i — M > 1 ， 





M 匕 0, 



(10.39) 


其中约束 M 匕0表明 M 必须是半正定的.式 (10.39) 要求在不相似样本间的距 
离不小于1的前提下，使相似样本间的距离尽可能小. 
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度量学习自身通常并不 
要求学得的 M 是低秩的. 


参见第13章. 


半监督聚类见 13.6 节. 


第10章降维与度量学习 


不同的度量学习方法针对不同目标获得“好”的半正定对称距离度量矩 
阵 M , 若 M 是一个低秩矩阵，则通过对 M 进行特征值分解，总能找到一组正 
交基，其正交基数目为矩阵 M 的秩 rank ( M ), 小于原属性数 d 于是，度量学习 
学得的结果可衍生出一个降维矩阵 P GR d 〃 ank ( M )， 能用于降维之目的. 

10.7 阅读材料 

懒惰学习方法主要有 / c 近邻学习器、懒惰决策树 [Friedman et al ., 1996]; 
朴素贝叶斯分类器能以懒惰学习方式使用，也能以急切学习方式使用.关于懒 
惰学习的更多内容可参阅 [ Aha , 1997]. 

主成分分析是一种无监督的线性降维方法，监督线性降维方法最著名的 
是线性判别分析 ( LDA ) [ Fisher , 1936], 参见 3.4 节，其核化版本 KLDA [Baudat 
and Anouar ，2000] 参见 6.6 节.通过最大化两个变量集合之间的相关性，则可 
得到“典型相关分析” (Canonical Correlation Analysis , 简称 CCA ) [ Hotelling , 
1936] 及其核化版本 KCCA [Harden et al ., 2004], 该方法在多视图学习 ( multi - 
view learning ) 中有广泛应用.在模式识别领域人们发现，直接对矩阵对 
象(例如一幅图像)进行降维操作会比将其拉伸为向量(例如把图像逐行拼接 
成一个向量)再进行降维操作有更好的性能，于是产生了 2 DPCA [Yang et al ., 
2004]、 2 DLDA [Ye et al .，2005]、(2 D) 2 PCA [Zhang and Zhou , 2005] 等方法， 
以及基于张量 ( tensor ) 的方法 [Kolda and Bader , 2009]. 

除了 Isomap 和 LLE , 常见的流形学习方法还有拉普拉斯特征映射 ( Lapl - 
cian Eigenmaps ， 简称 LE ) [Belkin and Niyogi , 2003]> 局部切空间对齐 (Local 
Tangent Space Alignment , 简称 LTSA ) [Zhang and Zha , 2 004：] 等. 局部保持投 
影 (Locality Preserving Projections , 简称 LPP ) [He and Niyogi , 2004] 是基于 
LE 的线性降维方法.对监督学习而言，根据类别信息扭曲后的低维空间常比本 
真低维空间更有利 [Geng et al , 2005]. 值得注意的是，流形学习欲有效进行邻 
域保持则需样本密采样，而这恰是高维情形下面临的重大障碍，因此流形学习 
方法在实践中的降维性能往往没有预期的好；但邻域保持的想法对机器学习的 
其他分支产生了重要影响，例如半监督学习中有著名的流形假设、流形正则化 
[Belkin et al ., 2006]. [Yan et al ., 2007] 从图嵌入的角度给出了降维方法的一个 
统一框架. 

将必连关系、勿连关系作为学习任务优化目标的约束，在半监督聚类的研 
究中使用得更早 [Wagstaff et al ., 2001]. 在度量学习中，由于这些约束是对所有 
样本同时发生作用 [Xing et al ., 2003] 5 因此相应的方法被称为全局度量学习方 
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法.人们也尝试利用局部约束(例如邻域内的三元关系)，从而产生了局部距离 
度量学习方法 [Weinberger and Saul , 2009]，甚至有一些研究试图为每个样本 
产生最合适的距离度量 [Frome et al . 5 2007; Zhan et al ., 2009]. 在具体的学习 
与优化求解方面，不同的度量学习方法往往采用了不同的技术，例如 [Yang et 
al .，2006] 将度量学习转化为判别式概率模型框架下基于样本对的二分类问题 
求角军 ， [Davis et al ., 2007] 将度量学习转化为信息论框架下的 Bregman 优化问 
题，能方便地进行在线学习. 
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习题 


10.1 

西瓜数据集 3.0 a 见 P .89 
的表 4.5. 


编程实现近邻分类器，在西瓜数据集3.0«上比较其分类边界与决 
策树分类边界之异同. ' 


10.2 〜 tt 、 err * 分别表示最近邻分类器与贝叶斯最优分类器的期望错误 

率，试证明 



10.3 


err * ^ err ( err * 



x err 


(10.40) 


在对高维数据降维之前应先进行“中心化”，常见的是将协方差矩阵 
XX T 转化为 XHH t X t , 其中 H = I —去 11 T ， 试析其 效果. 

fTb 


10.4 在实践中，协方差矩阵 XX T 的特征值分解常由中心化后的样本矩阵 
X 的奇异值分解代替,试述其原因. 


10.5 降维中涉及的投影矩阵通常要求是正交的.试述正交、非正交投影矩 
阵用于降维的优缺点. 


princomp 函数调用. 

Yale 人脸数据集见 
http :// vision . ucsd . edu/content 
/ yale - face - database . 


10.6 


10.7 


试使用 MATLAB 中的 PCA 函数对 Yale 人脸数据集进行降维，并观 
察前20个特征向量所对应的图像. 

试述核化线性降维与流形学习之间的联系及优缺点. 


10.8* k 近邻图和 e 近邻图存在的短路和断路问题会给 Isomap 造成困扰，试 
设计一个方法缓解该问题. 


参见 9.3 节. 


10.9* 试设计一个方法为新样本找到 LLE 降维后的低维坐标. 

10.10 试述如何确保度量学习产生的距离能满足距离度量的四条基本性质. 
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Galton 是达尔文的表弟, 
优生学”发明人. 


小故事：主成分分析与卡尔•皮尔逊 

主成分分析 （ PCA ) 是迄今最常用的降维方法，它有许 
多名字，例如线性代数中的散度矩阵奇异值分解 （ SVD )、 

统计学中的因子分析 （factor analysis) 、 信号处理中的离散 
Karhiinen-Loeve 变换、图像分析中的 Hotelling 变换、文 
本分析中的潜在语义分析 (LSA)> 机械工程中的本征正交 
分解 （ POD )、 气象学中的经验直交函数 （ EOF )、 结构动力学中的经验模分析 
(EMA )、 ’ 心理测量学中的 Schmidt-Mirsky 定理等. 

卡尔•皮尔逊 (Karl Pearson, 1857— 1936) 在 1901 年发明了 PCA. 皮尔逊 
是一位罕见的百科全书式的学者，他是统计学家、应用数学家、哲学家、历史 
学家、民俗学家、宗教学家、人类学家、语言学家，还是社会活动家、教育改 
革家、作家. 1879 年他从剑桥大学国王学院数学系毕业，此后到德国海德堡大 
学、柏林大学等地游学，涉猎广泛. 1884 年他开始在伦敦大学学院 (University 
College London, 简称 UCL) 担任应用数学讲席教授, 39 岁时成为英国皇家学 
会会士.他在 1892 年出版的科学哲学经典名著《科学的规范》，为爱因斯坦创 
立相对论提供了启发.皮尔逊对统计学作出了极为重要的贡献，例如他提出了 
相关系数、标准差、卡方检验、矩估计等，并为假设检验理论、统计决策理论 
奠定了基础，被尊为“统计学之父”. 

皮尔逊开展统计学研究是因受到了生物学家 F. Galton 和 W. Welton 的影 
响，希望使进化论能进行定量描述和分析. 1901 年他们三人创立了著名的统计 
学期刊 Biometrika , 皮尔逊担任主编直至去世.皮尔逊的独子 Egon 也是著名 
统计学家，是著名的“奈曼-皮尔逊定理”中的皮尔逊，他子承父业出任 UCL 
的统计学教授以及 Biometrika 主编，后来担任了英国皇家统计学会主席. 






桌 11 章特征选择与稀疏学习 


11.1 子集搜索与评价 

我们能用很多属性描述一个西瓜，例如色泽、根蒂、敲声、纹理、触感 
等，但有经验的人往往只需看看根蒂、听听敲声就知道是否好瓜.换言之，对 
一个学习任务来说，给定属性集，其中有些属性可能很关键、很有用，另一些 
属性则可能没什么用.我们将属性称为“特征” ( feature ), 对当前学习任务有 
用的属性称为“相关特征” (relevant feature ), 没什么用的属性称为“无关特 
征” (irrelevant feature ). 从给定的特征集合中选择出相关特征子集的过程，称 
为“特征选择” (feature selection ). 

特征选择是一个重要的“数据预处理” (data preprocessing ) 过程，在现实 
机器学习任务中，获得数据之后通常先进行特征选择，此后再训练学习器.那 
么，为什么要进行特征选择呢？ 

有两个很重要的原因：首先，我们在现实任务中经常会遇到维数灾难问题, 
这是由于属性过多而造成的，若能从中选择出重要的特征，使得后续学习过程 
仅需在一部分特征上构建模型，则维数灾难问题会大为减轻.从这个意义上说， 
特征选择与第10章介绍的降维有相似的动机；事实上，它们是处理高维数据的 
两大主流技术.第二个原因是，去除不相关特征往往会降低学习任务的难度，这 
就像侦探破案一样，若将纷繁复杂的因素抽丝剥茧，只留下关键因素，则真相往 
往更易看清. 

需注意的是，特征选择过程必须确保不丢失重要特征，否则后续学习过程 
会因为重要信息的缺失而无法获得好的性能.给定数据集，若学习任务不同，则 
相关特征很可能不同，因此，特征选择中所谓的“无关特征”是指与当前学习 
任务无关.有一类特征称为“冗余特征” (redundant feature ), 它们所包含的信 
息能从其他特征中推演出来.例如，考虑立方体对象，若已有特征“底面长” 
“底面宽”，则“底面积”是冗余特征，因为它能从“底面长”与“底面宽” 
得到.冗余特征在很多时候不起作用，去除它们会减轻学习过程的负担.但有 
时冗余特征会降低学习任务的难度，例如若学习目标是估算立方体的体积，则 
“底面积”这个冗余特征的存在将使得体积的估算更容易；更确切地说，若某 
个冗余特征恰好对应了完成学习任务所需的“中间概念”，则该冗余特征是有 
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亦称子集“生成与搜 
索” ■ 


假设每个属性有个可 
取值，则 V ^ v \ A K 这可能 
是一个很大的值，因此实 
践中通常是从子集搜索过 
程中前一轮属性子集的评 
价值出发来进行计算. 


益的.为简化讨论，本章暂且假定数据中不涉及冗余特征，并且假定初始的特征 
集合包含了所有的重要信息. . 

欲从初始的特征集合中选取一个包含了所有重要信息的特征子集，若没有 
任何领域知识作为先验假设，那就只好遍历所有可能的子集了；然而这在计算 
上却是不可行的，因为这样做会遭遇组合爆炸，特征个数稍多就无法进行.可行 
的做法是产生一个“候选子集”，评价出它的好坏，基于评价结果产生下一个 
候选子集，再对其进行评价，……这个过程持续进行下去，直至无法找到更好的 
候选子集为止.显然，这里涉及两个关键 环节： 如何根据评价结果获取下一个候 
选特征子集？如何评价候选特征子集的好坏？ 

第一个环节是“子集搜索” (subset search ) 问题.给定特征集合 { ai ， 
a 2 ,... 5 a d } 5 我们可将每个特征看作一个候选子集，对这 d 个候选单特征子 
集进行评价，假定仏 2 }最优，于是将 { a 2 } 作为第一轮的选 定集； 然后，在上一 
轮的选定集中加入一个特征，构成包含两个特征的候选子集，假定在这 d - 1个 
候选两特征子集中 { a 2 , a 4 } 最优，且优于 { a 2 } 5 于是将 { a 2 , a 4 } 作为本轮的选 
定集；……假定在第 /c + 1轮时，最优的候选 (^+1) 特征子集不如上一轮的选 
定集，则停止生成候选子集，并将上一轮选定的 A : 特征集合作为特征选择结果. 
这样逐渐增加相关特征的策略称为“前向” （ fbrward ) 搜索.类似的，若我们从 
完整的特征集合开始 5 每次尝试去掉一个无关特征，这样逐渐减少特征的策略 
称为“后向” （ backward ) 搜索.还可将前向与后向搜索结合起来，每一轮逐渐 
增加选定相关特征(这些特征在后续轮中将确定不会被去除)、同时减少无关特 
征,这样的策略称为“双向” （ bidirectional ) 搜索. 

显然，上述策略都是贪心的，因为它们仅考虑了使本轮选定集最优，例如在 
第三轮假定选择 a 5 优于邮，于是选定集为 { a 25 a 45 a 5 }, 然而在第四轮却可能是 
{ a 2 , a 4 , a 6 , a 8 } 比所有的 { a 2 , a 4 , a 5 , 都更优.遗憾的是，若不进行穷举搜索， 
则这样的问题无法避免. 

第二个环节是“子集评价 ” （subset evaluation ) 问题.给定数据集 D , 假 
定 D 中第 i 类样本所占的比例为仍 （i = 1,2，...，|： V |). 为便于讨论，假定样 
本属性均为离散型.对属性子集 A ， 假定根据其取值将 D 分成了 F 个子集 

D v }, 每个子集中的样本在4上取值相同，于是我们可计算属性 
子集4的信息增益 



Gain ( A ) 二 Ent ( D ) — 



( 11 . 1 ) 







11.2 过滤式选择 


参见 4.2.1 节. 


许多“多样性度量”， 
如不合度量、相关系数等， 
稍加调整即可用于特征子 
集评价,参见 8.5.2 节. 
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其中信息熵定义为 

1洲 

Ent ( D ) = ~^2 pklog 2 p k , (11.2) 

i=l 

信息增益 Gain ㈤ 越大，意味着特征子集 A 包含的有助于分类的信息越多.于 
是，对每个候选特征子集，我们可基于训练数据集 D 来计算其信息增益，以此 
作为评价准则. 

更一般的，特征子集4实际上确定了对数据集乃的一个划分，每个划分区 
域对应着4上的一个取值，而样本标记信息 y 则对应着对的真实划分，通过 
估算这两个划分的差异，就能对4进行评价.与 y 对应的划分的差异越小，则 
说明 a 越好.信息熵仅是判断这个差异的一种途径，其他能判断两个划分差异 
的机制都能用于特征子集评价. 

将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法.例 
如将前向搜索与信息熵相结合,这显然与决策树算法非常相似.事实上，决策树 
可用于特征选择，树结点的划分属性所组成的集合就是选择出的特征子集.其 
他的特征选择方法未必像决策树特征选择这么明显，但它们在本质上都是显式 
或隐式地结合了某种(或多种)子集搜索机制和子集评价机制. 

常见的特征选择方法大致可分为三类：过滤式 ( filter )、 包裹式 ( wrapper ) 和 
嵌入式 ( embedding ) • 

11.2 过滤式选择 

过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程 
与后续学习器无关.这相当于先用特征选择过程对初始特征进行“过滤”，再 
用过滤后的特征来训练模型. 

Relief (Relevant Features ) [Kira and Rendell , 1992] 是一种著名的过滤式 
特征选择方法，该方法设计了一个“相关统计量”来度量特征的重要性.该统 
计量是一个向量，其每个分量分别对应于一个初始特征，而特征子集的重要性 
则是由子集中每个特征所对应的相关统计量分量之和来决定.于是，最终只需 
指定一个阈值 T ， 然后选择比 T 大的相关统计量分量所对应的特征 即可； 也可指 
定欲选取的特征个数&，然后选择相关统计量分量最大的个特征. 

显然 ， Relief 的关键是如何确定相关统计量.给定训练集 {( x uyi ), 
( a ? 2 ，" 2 )， …， Om ，2/ m )}， 对每个示例叫， Relief 先在心的同类样本中寻找 
其最近邻 A ， n h ， 称为“猜中近邻” ( near - hit ) ? 再从而的异类样本中寻找其最 



250 


第 11 章特征选择与稀疏学习 


近邻 A ， nm ， 称为“猜错近邻” ( near - miss ), 然后，相关统计量对应于属性 j 的 
分量为 

sj = J2 -diff(^ ， 4nh) 2 + diff «, 4 麵) 2 ， （ n . 3 ) 


Relief 中相关统计量的 
计算已隐然具有距离度量 
学习的意味.距离度量学 
习参见 10.6 节. 


其中^4表示样本％在属性 j 上的取值, di &( xi , x 3 b ) 取决于属性 j 的类型：若 
属性 j 为离散型，则 d 4时 diS ( x J a , xi ) = 0,否则为1;若属性 j 为连续型， 
则 dm { xlxi ) = \ xi ~ x J b l 注意 xi，xi 已规范化到[0, 1] 区间. 

从式 (11.3) 可看出，若&与其猜中近邻 A ， nh 在属性 j 上的距离小于&与 
其猜错近邻 ％， nm 的距离，则说明属性 j 对区分同类与异类样本是有益的，于是 
增大属性 j 所对应的统计量 分量； 反之 ，若％ 与其猜中近邻 &， nh 在属性 j 上的 
距离大于^与其猜错近邻 ％， nm 的距离，则说明属性 j 起负面作用，于是减小 
属性 j 所对应的统计量分量.最后，对基于不同样本得到的估计结果进行平均， 
就得到各属性的相关统计量分量，分量值越大，则对应属性的分类能力就越强. 


式 (11.3) 中的 i 指出了用于平均的样本下标.实际上 Relief 只需在数据集的 
采样上而不必在整个数据集上估计相关统计量 [Kira and Rendell ，1992]. 显然， 
Relief 的时间开销随釆样次数以及原始特征数线性增长，因此是一个运行效率 
很高的过滤式特征选择算法. 

Relief 是为二分类问题设计的，其扩展变体 Relief-F [ Kononenko , 1994] 能 
处理多分类问题.假定数据集 D 中的样本来自|洌个类别.对示例若它属 
于第 k ^ (k E {1,2, ... , | y |}， 则 Relief-F 先在第 k 类的样本中寻找巧的最近 
邻示例 &， nh 并将其作为猜中近邻，然后在第 / c 类之外的每个类中找到一个^ 
的最近邻示例作为猜错近邻，记为 x iMm (Z = 1，2, ... ，以； l ^ k ). 于是，相关 
统计量对应于属性 j 的分量为 

y = E-diff(4，< nh ) 2 + E(p z xdiff(4 ， a4mn) 2 )，. ■ ( n . 4 ) 

i l^k 

其中 M 为第〖类样本在数据集乃中所占的比例. 

11.3 包褢式选择 


与过滤式特征选择不考虑后续学习器不同，包裹式特征选择直接把最终将 
要使用的学习器的性能作为特征子集的评价准则.换言之，包裹式特征选择的 
目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集. 

一般而言，由于包裹式特征选择方法直接针对给定学习器进行优化，因此 
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拉斯维加斯方法和蒙特 
卡罗方法是两个以著名赌 
城名字命名的随机化方法. 
两者的主要区 别是： 若有 
时间限制，则拉斯维加斯 
方法或者给出满足要求的 
解，或者不给出解，而蒙 
特卡罗方法一定会给出解, 
虽然给出的解未必满足要 
求； 若无时间限制，则两者 
都能给出满足要求的解. 


初始化. 


在特征子集 W 上通过 
交叉验证估计学习器误差. 


若连续 T 轮未更新则算 
法停止. 


从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好，但另一方面， 
由于在特征选择过程中需多次训练学习器，因此包裹式特征选择的计算开销通 
常比过滤式特征选择大得多. 

LVW (Las Vegas Wrapper) [Liu and Setiono, 1996] 是一个典型的包裹式 
特征选择方法.它在拉斯维加斯方法 (Las Vegas method) 框架下使用随机策略 
来进行子集搜索，并以最终分类器的误差为特征子集评价准则.算法描述如 
图 11.1 所示. 


输入： 数据集 

特征集 
学习算法 £• 

停止 条件控^参数 T. 


、 -4> m 

过程: 
E 
d: 


3 

4 

5 

6 

7 

8 
9 


A 

： A 


0 ; 


while t <T do 

随机产生特征子集卩 
d f = \ A f \; 

E l = Cross Validation(£(L) yl/ )); 

if (E f <E) V ((E r = E)A (d f < d)) then 


10 

t = 

o ； 

11 

E - 

= E f \ 

12 

d = 

-d!] 

13 

A* 

= A 1 

14 

else 


15 

t = 

t + ] 

16 

end if 


17: end while 

输出：特征子集 I 


图 11.1 LVW 算法描述 


图 11.1 算法第8行是通过在数据集乃上，使用交叉验证法来估计学习器 
£的误差，注意这个误差是在仅考虑特征子集 W 时得到的，即特征子集 W 上 
的误差，若它比当前特征子集4上的误差更小，或误差相当但 W 中包含的特征 
数更少，则将 W 保留下来. 

需注意的是，由于 LVW 算法中特征子集搜索釆用了随机策略，而每次特征 
子集评价都需训练学习器，计算开销很大，因此算法设置了停止条件控制参数 
T . 然而，整个 LVW 算法是基于拉斯维加斯方法框架，若初始特征数很多(即 
14很大)、 r 设置较大，则算法可能运行很长时间都达不到停止条件.换言之， 
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若有运行时间限制，则有可能给不出解. 


11.4 嵌入式选择与 U 正则化 

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明 
显的 分别； 与此不同，嵌入式特征选择是将特征选择过程与学习器训练过程融 
为 一体， 两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了 
特征选择. 

给定数 据集乃 ={(化，讥），（涊2，以2),…， Om ，2/ m )}， 其中 X G R d : y G R. S ； 
们考虑最简单的线性回归模型，以平方误差为损失函数，则优化目标为 



m 

min ~ wTx i ) 2 - 

W i=l 


(11.5) 


正则化参见 6.4 节. 


当样本特征很多 5 而样本数相对较少时，式 (11.5) 很容易陷入过拟合.为了 
缓解过拟合问题，可对式 (11.5) 引入正则化项.若使用 L 2 范数正则化，则有 


min fa — w T Xi ) 2 4-入 | H | 屋 


( 11 . 6 ) 




岭回归最初由 A . 
Tikhonov 在1943年发表 
于《苏联科学院院刊》， 
因此亦称 “ Tikhonov 回 
归”，而 L 2 正则化亦称 
“Tikhonov 正则化”. 


其中正则化参数 A > 0. 式 (11.6) 称为“岭回归 ” （ridge regression ) [Tikhonov 
and Arsenin , 1977], 通过引 AL 2 范数正则化，确能显著降低过拟合的风险. 

那么，能否将正则化项中的 L 2 范数替换为 L p 范数呢？答案是肯定的.若 
令 p = l , 即采用 h 范数，则有 




呼5> 

i=l 


^W + All^llx . 


( 11 . 7 ) 


直译为“最小绝对收缩 
选择算子”，由于比较拗 
口，因此一般直接称 LAS ¬ 
SO . 


事实上，对施加“稀 
疏约束” （即 希望 切 的非 
零分量尽可能少）最自然 
的是使用 U 范数，但 u 
范数不连续，难以优化¥ 
解，因此常使用 u 范数来 
近似. 


其中正则化参数 A > 0. 式 (11.7) 称为 LASSO (Least Absolute Shrinkage and 
Selection Operator ) [ Tibshirani , 1996]). 

, Li 范数和 L 2 范数正则化都有助于降低过拟合风险，但前者还会带来一个 
额外的好处：它比后者更易于获得“稀疏” （ sparse ) 解，即它求得的 w 会有更 
少的非零分量. 

为了理解这一点，我们来看一个直观的例子： 假定® 仅有两个属性，于是 
无论式 (11.6) 还是 (11.7) 解出的祕都只有两个分量，即 ^ i ^2, 我们将其作为两 
个坐标轴，然后在图中绘制出式 (11.6) 与 (11.7) 的第一项的“等值线”，即在 
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即选择出对应于 
零分量的特征. 



( w 1 , w 2 ) 空间中平方误差项取值相同的点的连线，再分别绘制出范数与 L 2 
范数的等值线，即在 (^1,^2) 空间中范数取值相同的点的连线，以及 L 2 范 
数取值相同的点的连线，如图 11.2 所示.式 (11.6) 与 (11.7) 的解要在平方误差项 
与正则化项之间折中，即出现在图中平方误差项等值线与正则化项等值线相交 
处.由图 11.2 可看出，采用 h 范数时平方误差项等值线与正则化项等值线的 
交点常出现在坐标轴上，即切1或切2为0,而在采用 L 2 范数时，两者的交点常 
出现在某个象限中，即 M 或 W 2 均非0;换言之，采用 In 范数比 L 2 范数更易于 
得到稀疏解. 

注意到 W 取得稀疏解意味着初始的 d 个特征中仅有对应着 W 的非零分量 
的特征才会出现在最终模型中，于是，求解 h 范数正则化的结果是得到了仅采 
用一部分初始特征的模型；换言之，基于 Li 正则化的学习方法就是一种嵌入式 
特征选择方法，其特征选择过程与学习器训练过程融为一体，同时完成. 

Li 正则化问题的求解可使用近端梯度下降 （Proximal Gradient Descent , 
简称 PGD ) [Boyd and Vandenberghe , 2004]. 具体来说，令 ▽ 表示微分算子，对 
优化目标 

+ A || cc||i , (11.8) 

X 

若 f ( x ) 可导，且 ▽/ 满足 L - Lipschitz 条件，即存在常数 L > 0使得 

| V/(x / ) - V/(x )||2 ^ L \\x r - x \\ 2 2 (Vcc,x ’） ， (11.9) 
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则在附近可将 f ( x ) 通过二阶泰勒展式近似为 


A L 

/» f ( x k ) + ( Vf { x k ),x - X k ) + ttII® - x k\\ 


|2 


L 


X - ( X k - - Vf ( x k ) 


2 


十 const . 


( 11 . 10 ) 


2 


其中 const 是与 cc 无关的常数，〈•，•〉表示内积.显然，式 (11.10) 的最小值在如下 
x k + i 获得： 

1 

( 11 . 11 ) 


x k+l ^ x k ~~ 工 ▽ f 


于是，若通过梯度下降法对 f(X) 进行最小化，则每一步梯度下降迭代实际 
上等价于最小化二次函数 />). 将这个思想推广到式(11.8)，则能类似地得到 
其每一步迭代应为 


习题 11.8. 



Xfc+i = arg mm 


L 


x — I ®/c — ^V/ 


2 


4 - A || x | 


2 


( 11 . 12 ) 


即在每一步对 f ( x ) 进行梯度下降迭代的同时考虑 Li 范数最小化. 

对于式 (11. 12)，可先计算 z ^ x k - \ yf ( x k ), 然后求解 

= argmin ^|| aj - 2 ||| + A || x||i . (11.13) 

令 d 表示$的第 i 个分量，将式 (11.13) 按分量展开可看出，其中不存在 
( i 妾 j ) 这样的项，即: T 的各分量互不影响，于是式 (11.13) 有闭式解 

— X/ Lj X/ L <C 5 

x\ + i — < 0, \ z l \ < X/L ; (11.14) 

+ A / L , - X/L , 

其中 4 +1 与 〆 分别是 x k +1 与 z 的第 i 个分量.因此，通过 PGD 能使 LASSO 
和其他基于 In 范数最小化的方法得以快速求解. 


11.5 稀疏表示与字典学习 

不妨把数据集 D 考虑成一个矩阵，其每行对应于一个样本，每列对应于一 
个特征.特征选择所考虑的问题是特征具有“稀疏性”，即矩阵中的许多列与 
当前学习任务无关，通过特征选择去除这些列，则学习器训练过程仅需在较小 
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模型涉及的输入因素减 
少了，模型所建立的“输 
入-输出”关系会更清晰. 


这里为了用汉语来举例 
说明，我们回避了分词问 
题,仅谈论汉字. 


参见 6.3 节和 12.4 节. 


字典亦称“码书” 
( codebook ). 

字典学习亦称“码书学 
习 ” （codebook learning ). 


的矩阵上进行，学习任务的难度可能有所降低，涉及的计算和存储开销会减少, 
学得模型的可解释性也会提高. 


现在我们来考虑另1种稀疏性： D 所对应的矩阵中存在很多零元素，但这 
些零元素并不是以整列、整行形式存在的.在不少现实应用中我们会遇到这样 
的情形，例如在文档分类任务中，通常将每个文档看作一个样本，每个字 (词) 作 
为一个特征，字(词)在文档中出现的频率或次数作为特征的 取值； 换言之 ， D 
所对应的矩阵的每行是一个文档，每列是一个字(词)，行、列交汇处就是某 
字(词)在某文档中出现的频率或次数.那么，这个矩阵有多少列呢？以汉语为 
例，《康熙字典》中有47035个汉字，这意味着该矩阵可有4万多列，即便仅考 
虑《现代汉语常用字表》中的汉字，该矩阵也有3500列.然而，给定一个文档， 
相当多的字是不出现在这个文档中的，于是矩阵的每一行都有大量的零 元素; 
对不同的文档，零元素出现的列往往很不相同. 


当样本具有这样的稀疏表达形式时,对学习任务来说会有不少好处，例如 
线性支持向量机之所以能在文本数据上有很好的性能，恰是由于文本数据在使 
用上述的字频表示后具有高度的稀疏性，使大多数问题变得线性可分.同时，稀 
疏样本并不会造成存储上的巨大负 担， 因为稀疏矩阵已有很多高效的存储方法. 

那么，若给定数据集 乃是稠 密的，即普通非稀疏数据，能否将其转化为 
“稀疏表示” (sparse representation ) 形式，从而享有稀疏性所带来的好处呢？ 
需注意的是，我们所希望的稀疏表示是“恰当稀疏”，而不是“过度稀疏”.仍 
以汉语文档为例，基于《现代汉语常用字表》得到的可能是恰当 稀疏， 即其稀 
疏性足以让学习任务变得简单 可行； 而基于《康熙字典》则可能是过度稀疏, 
与前者相比，也许并未给学习任务带来更多的好处. 

显然，在一般的学习任务中(例如图像分类)并没有《现代汉语常用字表》 
可用 5 我们需学习出这样一个“字典”.为普通稠密表达的样本找到合适的 
字典，将样本转化为合适的稀疏表示形式，从而使学习任务得以简化，模型 
复杂度得以降低，通常称为“字典学习” (dictionary learning ) ,亦称“稀疏编 
码” (sparse coding ). 这两个称谓稍有差别，“字典学习”更侧重于学得字典的 
过程，而“稀疏编码”则更侧重于对样本进行稀疏表达的过程.由于两者通常 
是在同一个优化求解过程中完成的，因此下面我们不做进一步区分，笼统地称 

给定数据集 { aJi , a ? 2 , - •. ,« m }, 字典学习最简单的形式为 


min 



^ \\ x i — Bai ||| + ||«i||i , 


(11.15) 
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在第二步，我们固定住叫来更新字典 B , 此时可将式 (11.15) 写为 


mm 


X T3 A I ! 

一 . 


(11.17: 


其中 X =( 叭，奶， … ， x m ) e R dxm , A = (ai,a 2 , … ， a m ) e R fcxm ，|| • || F 是 
矩阵的 Fmbenius 范数.式 (11.17) 有多种求解方法，常用的有基于逐列更新策 
略的 KSVD [Aharon et al ., 2006] •令~表示字典矩阵 B 的第 i 列， d 表示； 
疏矩阵 A 的第 i 行，式 (11.17) 可重写为 


mm 


X-BA 


mm 

bi 


k 


X 




Y, b ^ aJ 


2 


mm 

bi 


mm 

bi 


— biCx.^ 


bi ^ 


F 


(11.18: 


在更新字典的第 S 列时，其他各列都是固定的，因此恥= ¥ 是固定的， 
于是最小化式 (11.18) 原则上只 需对恥 进行奇异值分解以取得最大奇异值所对 
应的正交向量.然而，直接对恥进行奇异值分解会同时修改~和&，从而可 
能破坏 A 的稀疏性.为避免发生这种情况， KSVD 对恥和 d 进行专门处理: 
七仅保留非零元素，恥则仅保留匕与七的非零元素的乘积项，然后再进行奇 
异值分解，这样就保持了第一步所得到的稀疏性. 


其中 B e R dxk 为字典矩阵，&称为字典的词汇量,通常由用户指定，叫 e ，则 
是样本吗 G 妒 的稀疏表示.显然，式 (11.15) 的第一项是希望由叫能很好地重 
构第二项则是希望％尽量稀疏. 

与 LASSO 相比，式 (11.15) 显然麻烦得多，因为除了类似于式 (11.7) 中 t /; 的 
叫， 还需学习字典矩阵 B . 不过，受 LASSO 的启发，我们可采用变量交替优化 
的策略来求解式 (11.15). 

首先在第一步，我们固定住字典 B ， 若将式 (11.15) 按分量展开，可看出其中 
不涉及« (u #幻这样的交叉项，于是可参照 LASSO 的解法求解下式，从 
而为每个样本％找到相应的 a i: 
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奈奎斯特采样定理提供 
了信号恢复的充分条件而 
非必要条件. 


亦称 compressive sens ¬ 
ing . 


y 亦称“测量值”. 


假定 5 C 本身不是稀疏的. 


初始化字典矩阵 B 之后反复迭代上述两步，最终即可求得字典 B 和样本 
Xi 的稀疏表示在上述字典学习过程中，用户能通过设置词汇量的大小来 
控制字典的规模，从而影响到稀疏程度. 

11.6 压缩感知 

在现实任务中，我们常希望根据部分信息来恢复全部信息.例如在数据通 
讯中要将模拟信号转换为数字信号，根据奈奎斯特 ( Nyquist ) 采样定理，令采 
样频率达到模拟信号最高频率的两倍，则采样后的数字信号就保留了模拟信号 
的全部 信息； 换言之，由此获得的数字信号能精确重构原模拟信号.然而，为了 
便于传输、存储，在实践中人们通常对采样的数字信号进行压缩，这有可能损 
失一些信息，而在信号传输过程中，由于信道出现丢包等问题，又可能损失部 
分信息.那么，接收方基于收到的信号，能否精确地重构出原信号呢？压缩感 
知 (compressed sensing ) [ Donoho , 2006; Candes et aL , 2006] 为解决此类问题提 
供了新的思路. 

假定有长度为 m 的离散信号 cc ， 不妨假定我们以远小于奈奎斯特采样定理 
要求的采样率进行采样，得到长度为 n 的采样后信号％ n 《 m ， 即 

y — , (11.19) 

其中# € R nxm 是对信号$的测量矩阵，它确定了以什么频率进行采样以及如 
何将采样样本组成采样后的信号. 

在已知离散信号 z 和测量矩阵屯时要得到测量值2/很容易，然而，若将测 
量值和测量矩阵传输出去，接收方能还原出原始信号 ® 吗？ 

一■般来说，答案是 “ No ” ，这是由于 n 《 m , 因此 y , a ?, 屯组成的 
式 (11.19) 是一个欠定方程,无法轻易求出数值解. 

现在不妨假设存在某个线性变换屯 G 使得 z 可表示为屯 s 5 于是?/ 

可表示为 

V — — As , (11.20) 

其中 A =屯屯 e M nxm . 于是，若能根据 y 恢复出 s , 则可通过 x = ^ fs 来恢复 

it r 口 ‘ 一 

X. 

粗看起来式 (11.20) 没有解决任何问题，因为式 (11.20) 中恢复信号 s 这个逆 
问题仍是欠定的.然而有趣的是，若 s 具有稀疏性，则这个问题竟能很好地得 
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以解决！这是因为稀疏性使得未知因素的影响大为减少.此时式 (11.20) 中的屯 
称为稀疏基，而 A 的作用则类似于字典,能将信号转换为稀疏表示. 

事实上，在很多应用中均可获得具有稀疏性的 s ， 例如图像或声音的数字信 
号通常在时域上不具有稀疏性,但经过傅里叶变换、佘弦变换、小波变换等处 
理后却会转化为频域上的稀疏信号. 

显然，与特征选择、稀疏表示不同，压缩感知关注的是如何利用信号本身 
所具有的稀疏性，从部分观测样本中恢复原信号. 通常 认为，压缩感知分为“感 
知测量”和“重构恢复”这两个阶段.“感知测量”关注如何对原始信号进行 
处理以获得稀疏样本表示，这方面的内容涉及傅里叶变换、小波变换以及 11.5 
节介绍的字典学习、稀疏编码等，不少技术在压缩感知提出之前就已在信号处 
理等领域有很多研究；“重构恢复”关注的是如何基于稀疏性从少量观测中恢 
复原信号，这是压缩 感知的 精髓，当我们谈到压缩感知时，通常是指该部分. 

压缩感知的相关理论比较复杂，下面仅简要介绍一下“限定等距性” 
(Restricted Isometry Property , 简称 RIP ) [ Candes , 2008]. 

对大小为 n x m (n < m ) 的矩阵 A ， 若存在常数 4 G (0,1) 使得对于任意 
向量 s 和 A 的所有子矩阵 Afc € R nxfc 有 

( l -4)||^|| i ^|| A feS || i ^ (1 + 4)11^111， (11.21) 

贝 IJ 称 A 满足限定等距性 （ AkRIP ). 此时可通过下面的优化问题近乎完美地从 
y 中恢复出稀疏信号 S , 进而恢复出 CC : 

• ...... - , . 

min || s||o (11.22) 

s . t . y = As . 

’ \ 

然而，式 (11.22) 涉及 Lo 范数最小化，这是个 NP 难问题.值得庆幸的是 ， h 
范数最小化在一定条件下与 Lo 范数最小化问题共解 [Candes et al ., 2006]，于 
是实际上只需关注 ， 

min || s||i (11.23) 

8 

s . t . y = As . 

• . ■ * ■. 

这样，压缩感知问题就可通过1^范数最小化问题求解，例如式 (11.23) 可转化为 
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这是一个典型的“协同 
过滤” (collaborative filter - 
ing ) 任 


亦称“低秩矩阵恢复 


LASSO 的等价形式再通过近端梯度下降法求解，即使用“基寻踪去噪” (Basis 
Pursuit De - Noising ) [Chen et al ., 1998]. 

螓 

基于部分信息来恢复全部信息的技术在许多现实任务中有重要应用.例 
如网上书店通过收集读者在网上对书的评价，可根据读者的读书偏好来进行新 
书 推荐， 从而达到定向广告投放的效果.显然，没有哪位读者读过所有的书，也 
没有哪本书被所有读者读过，因此，网上书店所搜集到的仅有部分信息.例如 
表 11.1 给出了四位读者的网上评价信息，这里评价信息经过处理，形成了“喜 
好程度”评分 （5 分最高).由于读者仅对读过的书给出评价，因此表中出现了 
很多未知项“？”. 


表 11.1 客户对书的喜好程度评分 



《笑傲江湖》 

《万历十五年》 

《人间词话》 

《云海玉弓缘》 

《人类的故事》 

赵大 

5 

? 

• 

? 

3 

2 

钱二 

? 

5 

3 

? 

• 

5 

孙三 

5 

3 

? 

• 

? 

• 

? 

李四 

3 

? 

# 

5 

4 

? 

• 


那么，能否将表 11.1 中通过读者评价得到的数据当作部分信号，基于压缩 
感知的思想恢复出完整信号呢？ 


我们知道，能通过压缩感知技术恢复欠采样信号的前提条件之一是信号 
有稀疏表示.读书喜好数据是否存在稀疏表示呢？答案是肯定的. 一 般情形 
下，读者对书籍的评价取决于题材、作者、装帧等多种因素，为简化讨论,假定 
表 11.1 中的读者喜好评分仅与题_有关.《笑傲江湖》和《云海玉弓缘》是武 
侠小说，《万历十五年》和《人_的故事》是历史读物，《人间词话》属于诗 
词文学.一般来说，相似题材的书籍会有相似的读者，若能将书籍按题材归类, 
则题材总数必然远远少于书籍总数，因此从题材的角度来看，表 11.1 中反映出 
的信号应该是稀疏的.于是，应能通过类似压缩感知的思想加以处理. 


矩阵补全 (matrix completion ) 技术 [Candes and Recht ，2009] 可用于解决 
这个问题，其形式为 


min rank ( X ) (11.24) 

s . t . , ( U ) G D ， 


其中， X 表示需恢复的稀疏 信号； rank ( X ) 表示矩阵 X 的秩; A 是如表 11.1 的 
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核范数亦称“迹范数 
(trace norm ). 


SDP 参见附录 B .3. 


读者评分矩阵这样的已观测 信号； Q 是 A 中非“？”元素 ( A ),,- 的下标⑷ j ) 的 
集合.式 (11.24) 的约束项明确指出，恢复出的矩阵中 ( X ) ij 应当与已观测到的 
对应元素相同. 

与式 (II. 22 ) 相似，式 (11.24) 也是二个 NP •难问题.注意到 rank(X) 在集合 
{X e M mxn : || X ||| ^ 1} 上的凸包是 X 的“核范数” (nuclear norm): 

min{m ， n} 


" x ||* = 

j=l 

yx ) , 

(11.25) 

其中 aj { X ) 表示 X 的奇异值，即矩阵的核范数为矩阵的奇 异值之 和， 
过最小化矩阵核范数来近似求解式 (11. 24)，即 

于是可通 

|| X ||* 


(11.26) 

s « t • (5(^)勿‘ * — ( A )《 jf ， 

( D ) e n 



式 (11.26) 是一个凸优化问题，可通过半正定规划 ( Semi-Definite Programming , 
简称 SDP ) 求解.理论研究表明，在满足一定条件时，若 A 的秩为 r ， n 《 m , 则 
只#观察到 0 (mr log 2 m ) 个元素就能完美恢复出 A [ Recht , 2011]. 

11.7 阅读材料 

特征选择是机器学习中研究最早的分支领域之一，早期研究主要是按特 
征子集“生成与搜索 4 平价”过程进行.在子集生成与搜索方面引入了很多 
人工智能搜索技术，如分支限界法 [Narendra and Fukunaga, 1977] > 浮动搜索 
法 [Pudil et al., 1994] 等； 在子集评价方面则采用了很多源于信息论的准则, 
如信息熵、 AIC (Akaike Information Criterion) [Akaike, 1974] 等. [Blum and 
Langley, 1997] 对子集评价准则进行了讨论， [Forman, 2003] 则进行了很多实验 
比较. 

早期特征选择方法主要是过滤式的，包裹式方法出现稍晚 [Kohavi and 
John, 1997], 嵌入式方法事实上更晚 [Weston et al., 2003], 但由于决策树算法 
在构建树的同时也可看作进行了特征选择，因此嵌入式方法也可追溯到 ID3 
[Quinlan, 1986]. 有很多文献对特征选择方法的性能进行了实验比较 [Yang 
and Pederson, 1997; Jain and Zongker, 1997]. 更多关于特征选择的内容可参 
阅 [Guyon and Elisseeff, 2003; Liu et al., 2010], 以及专门关于特征选择的书籍 
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直译为“最小角回归”， 
通常直接称 LARS . 


仍以汉语文档为例 ，一 
个概念可能由多个字词来 
表达，这些字词就构成了 
一个 分组； 若这个概念在 
文档中没有出现，则这整 
个分组所对应的变量都将 
为零. 


Liu and Motoda , 1998, 2007]. 

LARS (Least Angle Regression ) [Efron et al ., 2004] 是一种嵌入式特征 
选择方法，它基于线性回归平方误差最小化，每次选择一个与残差相关性最 
大的特征 . LASSO [ Tibshirani , 1996] 可通过对 LARS 稍加修改而实现.在 
LASSO 基础上进一步发展出考虑特征分组结构的 Group LASSO [Yuan and 
Lin , 2006]、 考虑特征序结构的 Fused LASSO [Tibshirani et al ., 2005] 等变体. 
由于凸性不严格 5 LASSO 类方法可能产生多个解，该问题通过弹性网 (Elastic 
Net ) 得以解决 [Zou and Hastie ，2005]. 

对字典学习与稀疏编码 [Aharon et al ., 2006], 除了通过控制字典规模从 
而影响稀疏性，有时还希望控制字典的“结构”，例如假设字典具有“分组 
结构”，即同一个分组内的变量或同为非零，或同为零.这样的性质称为“分 
组稀疏性 ” （group sparsity ), 相应的稀疏编码方法则称为分组稀疏编码 (group 
sparse coding ) [Bengio et al ., 2009]. 稀疏编码和分组稀疏编码在图像特征抽取 
方面有很多应用，可参阅 [Mairal et al ., 2008; Wang et al ., 2010]. 

压缩感知 ponoho , 2006; Candes et al ., 2006] 直接催生了人脸识别的 
鲁棒主成分分析 [Candes et al . ? 2011] 和基于矩阵补全的协同过滤 [Recht 
et al ., 2010]. [ Baraniuk , 2007] 是关于压缩感知的一个简短介绍•将 Lo 范 
数最小化转化为 h 范数最小化后，常用求解方法除了转化为 LASSO 的 
基寻踪去噪，还可使用基寻踪 （Basis Pursuit ) [Chen et al .，1998]、 匹配寻 
踪 （Matching Pursuit ) [Mallat and Zhang , 1993] 等 .[Liu and Ye ，2009] 使 
用投影法快速求解稀疏学习问题，并提供了一个稀疏学习程序包 SLEP 
( http :/ / www . yelab.net / software / SLEP /). 
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西瓜数据集 3.0 见 p .84 
表 4.3. 


习题 

11.1 试编程实现 Relief 算法，并考察其在西瓜数据集 3.0 上的运行结果. 

11.2 试写出 Relief-F 的算法描述. 

11.3 Relief 算法是分别考察每个属性的重要性.试设计一个能考虑每一对 
属性重要性的改进算法. 

11.4 试为 LVW 设计一个改进算法，即便有运行时间限制，该算法也一定能 

给出解. 

11.5 结合图11.2,试举例说明 h 正则化在何种情形下不能产生稀疏解. 

11.6 试析岭回归与支持向量机的联系. 

11.7 试述直接求解 Lo 范数正则化会遇到的困难. 

11.8 试给出求解 In 范数最小化问题中的闭式解 (11.14) 的详细推导过程. 

11.9 试述字典学习与压缩感知对稀疏性利用的异同. 

11.10* 试改进式 (11.15), 以学习出具有分组稀疏性的字典. 
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休息 一会儿 



利沃夫 ( Lviv ) 在历史上 
先属于波兰， 1867—1918 
年属于奥匈帝国，第一 
次世界大战后回归波兰, 
1939年划入前苏联的乌克 
兰，现为乌克兰利沃夫州 
首府. 

冯•诺伊曼和爱德 
华 • 泰勒都出生在匈牙 
利. 


蒙特卡罗方法的著名代 
表 Metropolis-Hasting 算法 
是以他的名字命名的. 


小 故事： 蒙特卡罗方法与斯坦尼斯拉夫•乌拉姆 

斯坦尼斯拉夫 • 乌拉姆 (Stanislaw Ulam , 1909-1984) 
是著名的波兰犹太裔数学家，在遍历论、数论、集合论等方 
面都有重要贡献，“乌拉姆数列”就是以他的名字命名的. 



乌拉姆出生于奥匈帝国利沃夫， 1933 年在波兰利沃夫 
理工学院获得数学博士学位，然后于 1935 年应冯•诺伊曼1 
的邀请到普林斯顿高等研究院访问， 1940 年他在威斯康星大学麦迪逊分校获得 
教职，翌年加入美国籍. 1943 年起他参与“曼哈顿计划”并做出重大贡献；当 


前世界上绝大部分核武器所使用的设计方案“泰勒-乌拉姆方案”就是以他和 


“氢弹之父”爱德华•泰勒的名字命名的. 

世界上最早的通用电子计算机之一—— ENIAC 在发明后即被用于曼哈 
顿计划，乌拉姆敏锐地意识到在计算机的帮助下,可通过重复数百次模拟过程 
的方式来对概率变量进行统计估计.冯•诺伊曼立即认识到这个想法的重要 
性并给予支持. 1947 年乌拉姆提出这种统计方法并用于计算核裂变的连锁反 
应.由于乌拉姆常说他的叔叔又在蒙特卡罗赌场输钱了，因此他的同事 Nicolas 
Metropolis 戏称该方法为“蒙特卡罗”，不料却流传开去. 
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12.1 基础知识 

顾名思义,计算学习理论 (computational learning theory) 研究的是关于通 
过“计算”来进行“学习”的理论，即关于机器学习的理论基础，其目的是分 
析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法 
设计. 

给定样例集 = {( aji , 2 / 1 ), ( aj 2 , 2 / 2 ), • • • , ( x m , y m )}, e X , 本章主要讨论 
二分类问题，若无特别说明， Vi ey = {- 1 ,+ 1 }.假设7中的所有样本服从一 
个隐含未知的分布: D , 中所有样本都是独立地从这个分布上采样而得，即独 
立同分布 (independent and identically distributed, 简称 i . i . d .) 样本. 

令 / I 为从 尤到; V 的一个映射,其泛化误差为 

E { h \ V ) = P x ^ v ( h ( x ) ^ y ) , 

h 在 D 上的经验误差为 

1 _ m . 

E(h ] D) = -Y,Kh(x i )^y i ) . 

i=l 

由于 d 是 d 的独立同分布采样，因此 / i 的经验误差的期望等于其泛化误 
差. 在上下文明确时，我们将五 (& P ) 和 E ( h ; D ) 分别简记为五⑻和启⑻•令 
e 为 E ( h ) 的上限，即 E ( h ) ^ e ; 我们通常用 e 表示预先设定的学得模型所应满 
足的误差要求，亦称“误差参数”. 

本章后面部分将研究经验误差与泛化误差之间的逼近程度.若/ I 在数据集 
D 上的经验误差为0,则称/ I 与 D —致，否则称其与不一致.对任意两个映 
射 hi r h 2 e X 可通过其“不合” （ disagreement ) 来度量它们之间的差另 [ J : 

d { hi , h 2 ) = P x ^ v { h \{ x ) ^ h 2 ( x )) . (12.3) 

我们会用到几个常用不 等式： 


( 12 . 1 ) 


( 12 . 2 ) 
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• Jensen 不等式：对任意凸函数 /(r ), 有 
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学习算法£的假设空间 
不是 1.3 节所讨论的学习 
任务本身对应的假设空间. 


/(E ⑷ ; KE(/ ⑷). 


(12.4) 




Hoeffding 不等式 [Hoeffding, 1963]: 若 xi, 奶 ,… ，为 m 个独立随机变 
量，且满足 0 彡心彡 1, 则对任意 e > 0 ,有 


1 — 1 — \ 

P — Xi - Efe) ^ e I ^ exp(—2me 2 ), 

m ^ m ^ 


P 


t=L 

m 


i=l 
m 


m 






i=l 


^ e < 2exp(—2me 2 ). 


(12.5) 


( 12 . 6 ) 


• McDiarmid 不等式 [McDiarmid, 1989]: 若 xi, a ： 2 ,... ， x m 为 m 个独立随 
机变量，且对任意 1 < i < m ， 函数/满足 


sup I f (*^1 ， • • • ， ^m) — f (*^1 ， • • • ， *^2—1 ) *^z+l ， • . . ， *^7Tl) I ^ Q ) 

X \ 9 *.• 5X777, 9 

则对任意 e > 0, 有 

- ^ e) ^ exp ^ ( 12 . 7 ). 

/ _2 e 2 \ 

P(\f - E(/(xi,...,x m ))| ^ e) ^ 2 exp ^ ^ J • ( 12 - 8 ) 

12.2 PAC 学习 

计算学习理论中最基本的是概率近似正确 （Probably Approximately 
Correct , 简称 PAC ) 学习理论 [ Valiant , 1984]. “概率近似正确”这个名字 
看起来有点古怪，我们稍后再解释. 

令 c 表示“概念” ( concept ), 这是从样本空间 Y 到标记空间 y 的映射，它 
决定示例 a ? 的真实标记 y ， 若对任何样例 （ a ?, 有 c » = y 成立，则称 c 为目 
标概念；所有我们希望学得的目标概念所构成的集合称为“概念类 ” （concept 
class ), 用符号 C 表示. 

给定学习算法£,它所考虑的所有可能概念的集合称为“假设空 
间 ” （hypothesis space ) ,用符号 H 表示.由于学习算法事先并不知道概念 
类的真实存在，因此 W 和 C 通常是不同的，学习算法会把自认为可能的目标概 
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参见 1.4 节. 


一般来说，训练样例越 
少，采样偶然性越大. 


样例数目 m 与误差 e 、 
置信度 S 、 数据本身的复 
杂度 size ( a ;)、 目标概念的 
复杂度 size ( c ) 都有关. 


念集中起来构成片， 对 hen , 由于并不能确定它是否真是目标概念，因此称为 
“假设” （ hypothesis ). 显然，假设 h 也是从样本 空间义 到标记空间; V 的映射. 

若目标概念 c G 片，则开中存在假设能将所有示例按与真实标记一致的方 
式完全分开，我们称该问题对学习算法£是“可分的” ( separable ), 亦称“一 
致的” ( consistent ); 若 c 送 则？ ■/中不存在任何假设能将所有示例完全正 
确分开，称该问题对学习算法是“不可分的” （ non - separable ), 亦称“不一 
致的” ( non - consistent ). ' 

给定训练集乃，我们希望基于学习算法£学得的模型所对应的假设/ I 尽可 
能接近目标概念 c . 读者可能 会问： 为什么不是希望精确地学到目标概念 c 呢? 
这是由于机器学习过程受到很多因素的制约，例如我们获得的训练集 P 往往仅 
包含有限数量的样例，因此，通常会存在一些在乃上“等效”的假设，学习算 
法对它们无法区别；再如，从分布 P 采样得到乃的过程有一定偶然性，可以想 
象，即便对同样大小的不同训练集，学得结果也可能有所不同.因此，我们是希 
望以比较大的把握学得比较好的模型，也就是说，以较大的概率学得误差满足 
预设上限的 模型； 这就是“概率” “近似正确”的含义.形式化地说，令 J 表示 
置信度，可定义： 

定义 12.1 PAC 辨识 (PAC Identify )： 对0 < e ， 6 < 1,所有 ceC 和分布 
V , 若存在学习 算法； 其输出假设 /I e H 满足 

P ( E ( h ) < e ) > 1 — 6 , (12.9) 

则称学习算法£能从假设空间开中 PAC 辨识概念类 C . 

这样的学习算法£能以较大的概率（至少1 - ~学得目标概念 c 的近似 
(误差最多为4在此基础上可定义： 

定义 12.2 PAC 可学习 （PAC Leamable ): 令 m 表示从分布 P 中独立同 
分布采样得到的样例数目，0 < e ，5 < 1,对所有分布:若存在学习算法£和多 
项式函数 poly (. ，.，•，•)，使得对于任何 m 彡 poly ( l / e ， 1/5, size ㈤ ， size ( c ))， £能 
从假设空间片中 PAC 辨识概念类 C ， 则称概念类 C 对假设空间 H 而言是 PAC 
可学习的，有时也简称概念类 C 是 PAC 可学习的. 

对计算机算法来说，必然要考虑时间复杂度，于是： 
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定义 12.3 PAC 学 习算法 （PAC Learning Algorithm ): 若学习算法£使 
概念类 C 为 PAC 可学习的，且的运行时间也是多项式函数 poly ( l / e , 1/5, 
size ( x ), size ( c )), 则称概念类 C 是高效 PAC 可学习 （efficiently PAC learnable ) 
的，称为概念类 C 的 PAC 学习算法. 

假定学习算法£处理每个样本的时间为常数，则£的时间复杂度等价于样 
本复杂度.于是，我们对算法时间复杂度的关心就转化为对样本复杂度的 关心： 

定义 12.4 样本复杂度 (Sample Complexity ): 满足 PAC 学习算法£所 
需的 m > poly ( l / e 5 1/ J 3 size ( a ?), size ( c )) 中最小的 m , 称为学习算法 i ! 的样本 
复杂度 . 

显然， PAC 学习给出了一个抽象地刻画机器学习能力的框架，基于这个框 
架能对很多重要问题进行理论探讨，例如研究某任务在什么样的条件下可学得 
较好的模型？某算法在什么样的条件下可进行有效的学习？需多少训练样例才 
能获得较好的模型？ 

PAC 学习中一个关键因素是假设空间 W 的复杂度 . W 包含了学习算法£ 
所有可能输出的假设，若在 PAC 学习中假设空间与概念类完全相同，即况= C ， 
这称为“恰 PAC 可学习” (properly PAC learnable ); 直观地看，这意味着学习 
算法的能力与学习任务“恰好匹配”.然而，这种让所有候选假设都来自概念 
类的要求看似合理，但却并不实际，因为在现实应用中我们对概念类 C 通常一 
无所知，更别说获得一个假设空间与概念类恰好相同的学习算法.显然，更重要 
的是研究假设空间与概念类不同的情形，即 K # C . 一 般而言 ，片 越大，其包含 
任意目标概念的可能性越大，但从中找到某个具体目标概念的难度也越大 . | 州 
有限时，我们称片为“有限假设空间”，否则称为“无限假设空间”. 

12.3 有限假设空间 
12.3.1 可分情形 

可分情形意味着目标概念 c 属于假设空间％，即 ce 给定包含 m 个样 

例的训练集 D ， 如何找出满足误差参数的假设呢？ 

容易想到一种简单的学习 策略： 既然 D 中样例标记都是由目标概念 c 赋予 
的，并且 c 存在于假设空间 W 中，那么，任何在训练集 D 上出现标记错误的假 
设肯定不是目标概念 a 于是，我们只需保留与 D —致的假设，剔除与 D 不一 
致的假设即可.若训练集乃足够大，则可不断 借助乃 中的样例剔除不一致的假 
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设，直到 H 中仅剩下一个假设为止，这个假设就是目标概念 a 通常情形下，由 
于训练集规模有限，假设空间并中可能存在不止一个与一致的“等效”假 
设，对这些等效假设，无法根据 D 来对它们的优劣做进一步区分. 

到底需多少样例才能学得目标概念 C 的有效近似呢？对 PAC 学习来说，只 
要训练集 _ D 的规模能使学习算法£以概率1 - J 找到目标假设的 e 近似即可. 

我们先估计泛化误差大于 e 但在训练集上仍表现完美的假设出现的概率. 
假定的泛化误差大于 e , 对分布 P 上随机采样而得的任何样例 （ a ?, 2/)，有 

P { h { x ) = y ) — 1 — P { h { x ) ^ y ) 

=1 - E { h ) 

<1 — 6 . ( 12 . 10 ) 

由于 Z ) 包含 m 个从 D 独立同分布采样而得的样例，因此 ， h 与 D 表现一 
致的概率为 

P { ( h ( Xl ) = Vl ) A...A ( h { x m ) = y m )) = (1- P ( h ( x )^ y)) m 

< (1 - e) m . (12.11) 

我们事先并不知道学习算法£会输出片中的哪个假设，但仅需保证泛化 
误差大于 e ， 且在训练集上表现完美的所有假设出现概率之和不大于6即可： 

P ( heH : E { h ) > e A E ( h ) =0) < \ H \{1 - e) m 

< \n\e- me , ( 12 . 12 ) 

令式 (12.12) 不大于 J ， 即 

\n\e~ m€ ^ S 5 (12.13) 

可得 

m > -( in |?^| + Ini ). (12.14) 

6 0 

由此可知，有限假设空间 H 都是 PAC 可学习的，所需的样例数目如 
式 (12.14) 所示，输出假设/ I 的泛化误差随样例数目的增多而收敛到0,收敛速 
率为 0(^). 
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对较为困难的学习问题，目标概念0往往’不存在于假设空间 W 中.假定对 
于任何 hen , E ( h ) ^ 0,也就是说，％中的任意一个假设都会在训练集上出现 
或多或少的错误.由 Hoeffding 不等式易知： 

引理 12.1 若训练集 D 包含 m 个从分布: D 上独立同分布采样而得的样 
例，0 < e < 1,则对任意 h eH ， 有 

P ( E ( h ) — E ( h ) ^ e ) < exp (—2 me 2 ) , (12.15) 

P [ E { h ) — E ( h ) > e ) ^ exp (—2 me 2 ) , (12.16) 

(12.17) 

推论 12.1 若训练集 D 包含 m 个从分布 D 上独立同分布采样而得的样 
例，0 < e < 1，则对任意 heU , 式 (12.18) 以至少1 — J 的概率 成立： 

E ( h )~ ^ E ( h )< E ( h ) + . (12.18) 

推论 12.1 表明，样例数目 m 较大时 ， / i 的经验误差是其泛化误差很好的近 
似.对于有限假设空间％,我们有 

定理 12.1 若 H 为有限假设空间， 0<6<1, 则对任章 he % 有 

p(\m - m \ ^ ^ 俾埤 

证明令 / ll , ^2, . . . ， 表示假设空间 W 中的假设，有 

P (3 h e n : \ E { h )- E ( h )\ > e ) 

=P {(\ E hi ~ E hl \> e)v ..,y {\ E h m - Eh m \ > 

^ y ^ P {\ E { h )- E { h )\> e ) , 
hen 

由式 (12.17) 可得 

Y , p (\ m - m \> e ) < 2| H | exp (—2 me 2 ) ， 
hen . 1 
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即在 W 的所有假设中找 
出最好的一个. 


于是，令 J = 2\ H \ exp (—2 me 2 ) 即可得式 (12.19). ■ 

显然，当时，学习算法无法学得目标概念0的6近似.但是，当 
假设空间九给定时，其中必存在一个泛化误差最小的假设，找出此假设的 e 
近似也不失为一个较好的目标 . W 中泛化误差最小的假设是 argmink % 五 (/ i )， 
于是，以此为目标可将 PAC 学习推广到 c _ W 的情况，这称为“不可知学 
习 ” （agnostic learning ). 相应的，我们有 

定义 12.5 不可知 PAC 可学习 （agnostic PAC learnable ) :令 m 表 
示从分布 P 中独立同分布采样得到的样例数目，0 < 6 , 5 < 1,对所 
有分布 P ， 若存在学习算法公和多项式函数 poly (.， •，•，•)，使得对于任何 
m > poly ( l / e , l /^, size («) 5 size ( c )), £能从假设 空间开 中输出满足式 ( l 2 .20) 的 
假设/ I : 

P(E(h)-^E(h')^e)^l-6, ( 12 - 20 ) 

则称假设空间 K 是不可知 PAC 可学习的. 

与 PAC 可学习类似，若学习算法£的运行时间也是多项式函数 
poly ( l / e , 1/5, size (®) 5 size ( c )), 则称假设空间％是高效不可知 PAC 可学习 
的，学习算法£则称为假设空间 H 的不可知 PAC 学习算法，满足上述要求的 
最小 m 称为学习算法£的样本复杂度. 

12.4 VC 维 

现实学习任务所面临的通常是无限假设空间，例如实数域中的所有区 
间、空间中的所有线性超平面.欲对此种情形的可学习性进行研究，需 
度量假设空间的复杂度.最常见的办法是考虑假设空间的 “ VC 维” （ Vapnik - 
Chervonenkis dimension ) [Vapnik and Chervonenkis , 1971]. 

介绍 VC 维之前，我们先引入几个概念：增长函数 (growth function )、 对 
分 ( dichotomy ) 和打散 ( shattering ). 

给定假设空间片和示例集 D = { x u x 2l .. «中每个假设/ I 都能对 

D 中示例赋予标记，标记结果可表示为 

= { (" (® 1 ) ， " (® 2 ) ” ， h {Xrn) ) } - 
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例如，对二分类问题，若 
D 中只有2个示例，则赋 
予标记的可能结果只有4 
种； 若有3个示例，则可能 
结果有8种. 

N 为自然数域. 


证明过程参阅 [Vapnik 
and Chervonenkis , 1971]. 


每个假设会把 D 中示例 
分为两类，因此称为对分. 


随着 m 的增大，开中所有假设对 D 中的示例所能赋予标记的可能结果数 
也会增大. 

定义 12.6 对所有 mGN , 假设空间 K 的增长函数 为 

— max \{ ( h ( xi ) , ... , h ( x m )) | h G H }\ . (12.21) 

增长函数 U n ( m ) 表示假设空间九对 m 个示例所能赋予标记的最大可能 
结果数.显然， H 对示例所能赋予标记的可能结果数越大， H 的表示能力越强， 
对学习任务的适应能力也越强.因此，增长函数描述了假设空间片的表示能力， 
由此反映出假设空间的复杂度.我们可利用增长函数来估计经验误差与泛化误 
差之间的 关系： 

定理 12.2 对假设空间 m G N , 0 < e < 1和任意 heH 有 

P (| E W -%)|> e )<4 n w ( 2 m ) exp (-^). (12.22) 

假设空间片中不同的假设对于 D 中示例赋予标记的结果可能相同，也可 
能 不同； 尽管 W 可能包含无穷多个假设,但其对乃中示例赋予标记的可能结果 
数是有限 的：对 m 个示例 ， 最多有 2 m 个可能结果.对二分类问题来说，只中的 
假设对 D 中示例赋予标记的每种可能结果称为对 D 的一种“对分”.若假设 
空间％能实现示例集 D 上的所有对分，即 U n { m ) = 则称示例集乃能被 
假设空间 W “打散”. 

现在我们可以正式定义 VC 维了： 

定义 12.7 假设空间 K 的 VC 维是能被 K 打散的最大示例集的大小，即 

- ♦ • ■ 

VCCH ) 二 max { m : U n ( m ) = 2 m } . (12.23) 

VC ( K ) = 3表明存在大小为 d 的示例集能被假设空间^打散. 注意： 这并 
不意味着所有大小为 W 的示例集都能被假设空间 H 打散.细心的读者可能已发 
现, VC 维的定义与数据分布 P 无关！因此,在数据分布未知时仍能计算出假设 
空间宄的 VC 维. 

通常这样来计算 W 的 , VC 维： 若存在大小为 d 的示例集能被 W 打散，但不 
存在任何大小为 d + 1的示例集能被片打散，则 K 的 VC 维是 d . 下面给出两 
个计算 VC 维的例子： 
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例 12.1 实数域中的区间 [ a , 6]: 令九表示实数域中所有闭区间构成的集 
合 {^[ a ,6] : a , 6 G M , a < 6}, = M . 对 $ G 尤 ，若 r G [ a ，6], 则 h ^ b ]( x ) = +1, 

否则 ^[ a ,6](^) — — 1-令= 0.5, 吻=1.5，则假设空间中存在假设 
{叫0，1]，〜，2]，~1，2]，~2,3]}将{町，奶}打散，所以假设空间九的 VC 维至少为 2 ; 
对任意大小为3的示例集 { X 3, X 4 , X 5 }, 不妨设: r 3 < “ < ^5,则％中不存在任 
何假设 h [ a ^ 能实现对分结果 {(x 3 ,-f),(a ： 4,-),(X5, +)}. 于是，％的 VC 维为 2 . 

例 12.2 二维实平面上的线性划分：令九表示二维实平面上所有线性划 
分构成的集合 ， Y = M 2 . 由图 12.1 可知，存在大小为3的示例集可被 H 打散, 
但不存在大小为4的示例集可被％打散.于是，二维实平面上所有线性划分构 
成的假设空间％的 VC 维为 3. 


存在这样的集合，其2 3 二8种对分均可 对任何集合，其2 4 = 16种对分中 

被线性划分实现 至少有一种不能被线性划分实现 

⑻示例集大小为3 ( b ) 示例集大小为4 

图 12.1 二维实平面上所有线性划分构成的假设空间的 VC 维为3 

由定义 12.7 可知， VC 维与增长函数有密切联系，引理 12.2 给出了二者之 
间的定量关系 [ Sauer , 1972]: 

“ Sauer ■引 理”. 引理 12.2 若假设空间九的 VC 维为 d , 则对任意 m G N 有 

n n ( m ) < L 0 • (12.24) 

i=o \ l ’ 

证明 由数学归纳法证明. 当 m = l , d 二0或时，定理成立. 
假设定理对 （m — l，d - 1) 和 （m — l , d ) 成立.令 D = { xi , x 2 ,... 

Z ) = {^17 尤2, ... ，尤 m —1 }， 

^\D — { (^ (*^ l ) ? h (®2) ， . . . ， A (® m )) I h G , 

U'jy = { (h(x 1 ),h(x 2 ) ，…， /i {Xm-i)) \hen}. 

任何假设 h g n 对 Xm 的分类结果或为 + i ， 或为-1，因此任何出现在 
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0 = 0 . 


e 为自然常数. 


T ~ L \ D ， 中的串都会在中出现一'次或两次.令？|£)表不在中出现两次 
的中串组成的集合，即 


有 


^ D f \D ~{ ( 2 / 1 ? 2/2, ... ， Vm — l ) ^ 3/l, /l € "H ， 

h ~ yij A ★ h (a? m ))，1 ^ i ^ ui — . 

考虑到 ？^y |D 中的串在 H | d 中出现了两次，但在 H |z y 中仅出现了一次， 

~ I 九 |d’I + \^ d 1 \ d \ * (12.25) 


D f 的大小为 m - 1，由假设可得 


d 

\n^\^u n (m-i)^Yl 

i=0 



(12.26) 


令 Q 表示能被 u D ，\ D 打散的集合，由 n 卽 定义可知 Q u { x m } 必能被 
U \ D 打散.由于 H 的 VC 维为4因此开 jyp 的 VC 维最大为 d - 1 ,于是有 

d—l / 1 、 

\ n DflD \^ U n ( m - l )^^2[ 「)• ' (12.27) 

2=0 ^ ’ 


由式 (12.25) 〜 (12.27) 可得 



由集合 D 的任意性，引理 12.2 得证. 

从引理 12.2 可计算出增长函数的 上界： 

推论 12.2 若假设空间 W 的 VC 维为 d， 则对任意整数 m > d 有 


取㈣彡 


e. m、d 

~~ dT ) 


(12.28) 
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根据推论 12.2 和定理 12.2 可得基于 VC 维的泛化误 差界： 

定理 12.3 若假设空间开的 VC 维为 d, 则 对任意 m > d， 0 < 6 < 1和 
he：H 有 

P (E(h) — E(h) < ^/ 8dln 气 + ， 1 ) ^ . (12.29) 

证明 令 4n H (2m)exp(—_) 彡 4(t) d exp (— ¥) = (5, 解得 

c / 8伽亨 + 8^ j ， 

y m ’ 

代入定理 12.2, 于是定理 12.3 得证. ■ 

由定理 12.3 可知，式 (12.29) 的泛化误差界只与样例数目 m 有关，收敛速率 
为 0 (知, 与数据分布 P 和样例集乃无关.因此，基于 VC 维的泛化误差界是 
分布无关 （distribution-free)、 数据独立 （data-independent) 的. 


m ^ d. 
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令 h 表示学习算法£输出的假设，若^满足 


E ( h ) — min E { h ! 
h/eu 


(12.30) 


则称£为满足经验风险最小化 (Empirical Risk Minimization , 简称 ERM ) 原 
则的算法.我们有下面的 定理： 

定理 12.4 任何 VC 维有限的假设空间 H 都是(不可知） PAC 可学习的. 

证明假设为满足经验风险最小化原则的算法，/ I 为学习算法公输出的 
假设.令 g 表示 W 中具有最小泛化误差的假设，即 


E (9) = ^ E ( h ) 

flE. rt 


i2.3r 


令 


2 5 


(ln2/y) _ e 
2m 2 


(12.32) 


由推论 12.1 可知 


E ( g ) — - ^ E ( g ) ( E { g ) + - 


至少以 1 - 6/2 的概率成立.令 


8 dln 學 + 81 n |* e 
m 2 


(12.34) 


则由定理 12.3 可知 




1 


6_ 

2 


从而可知 


E { h )~ E ( g ) < E ( h ) + - — (^ E ( g ) 




e 

2 


E ( h )~ E ( g ) + 6 


彡 e 
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这个名字是为了纪念 
德国数学家 H. Rademach¬ 
er (1892-1969). 


以至少1 - 5的概率成立.由式 (12.32) 和 (12.34) 可以解出 m , 再由九的任意性 
可知定理 12.4 得证. ■ 


12.5 Rademacher 复杂度 

12.4 节提到，基于 VC 维的泛化误差界是分布无关、数据独立的，也就是 
说，对任何数据分布都成立.这使得基于 VC 维的可学习性分析结果具有一定 
的“普适 性”； 但从另一方面来说，由于没有考虑数据自身，基于 VC 维得到 
的泛化误差界通常比较“松”，对那些与学习问题的典型情况相差甚远的较 
“坏”分布来说尤其如此. 


Rademacher 复杂度 （Rademacher complexity ) 是另一种刻画假设空间复 
杂度的途径，与 VC 维不同的是,它在一定程度上考虑了数据分布. 

给定训练集= {( a ? i , yi )，(£ C2 ,?/ 2 ), …，假设的经验误差为 




：i 


E 

i=l 


1 - yih(xi) 


2 2m 


^2yih(xi) 


：i 


(12.36) 


其中 5 EZi ViK ^ i ) 体现了预测值 h ( Xi ) 与样例真实标记汸之间的一致性，若 
对于所有 i e {1， 2 ,…， m } 都有九(叫 ） =队，则去 ET=1 yM^i) 取最大值1.也 
就是说，经验误差最小的假设是 


arg max 一 > VihixA . (12.37) 

然而，现实任务中样例的标记有时会受到噪声影响，即对某些样例 
其讲 或许已受到随机因素的影响，不再是^的真实标记.在此情形下，选择假 
设空间九中在训练集上表现最好的假设，有时还不如选择开中事先已考虑了 
随机噪声影响的假设. 

考虑随机变量它以 0.5 的概率取值-1， 0.5 的概率取值+1，称为 
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Rademacher 随机变量.基于 c ^， 可将式 (12.37) 重写为 
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H 是无限假设空间，有 
可能取不到最大值，因此 
使用上确界代替最大值. 


sup — 
hen m 



(12.38) 


考虑 n 中的所有假设，对式 (12.38) 取期望可得 

Ecr SUp 

其中 o * = {a l5 a 2 ,...,(7 m }. 式 (12.39) 的取值范围是[0 5 1], 它体现了假设空 
间 H 的表达能力，例如，当|州=1时， H 中仅有一个假设，这时可计算出 
式 (12.39) 的值为0;当 | 州== 2 m 且 W 能打散 D 时，对任意 a 总有一个假设使 
得 h ( Xi ) = <7 i (S = 1，2, ...， m )， •这时可计算出式 (12.39) 的值为 1. 




2=1 


(12.39) 


考虑实值函数空间 J -： z -> R . 令 Z 勿， ... ， Zm }, 其中 A e Z ， 将 

式 (12.39) 中的 I 和 W 替换为 Z 和7可得 


定义 12.8 函数空间 7 关于 Z 的经验 Rademacher 复杂度 

- rrt 

Rz{^) = E<r SUp — a if( z i) • (12.40) 

J 

经验 Rademacher 复杂度衡量了函数空间与随机噪声在集合 Z 中的相 
关性.通常我们希望了解函数空间夕在艺上关于分布幻的相关性，因此，对所 
有从 V 独立同分布采样而得的大小为 m 的集合 Z 求期望可得 

定义 12.9 函数空间 T 7 关于 2 上分布 D 的 Rademacher 复杂度 

Rm {^) = ^ZC^Z'^Z^m [Rz^)] • (12.41) 

基于 Rademacher 复杂度可得关于函数空间的泛化误差界 [Mohri et al., 
2012 ]: 

定理 12.5 对实值函数空间入 ： Z 4 [0, 1], 根据分布 V 队艺 中独立同分 
布采样得到示例集 Z = {之1,之2,…， Zm }, Zi E Z , 0 < S < 1, 对任意/ G J 7 , 以 
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至少 1 — (5 的概率有 
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f(z)] ^ f(zj) + 2R rn (J : ) + 


i=l 

m 


E / ㈤ 彡 ^ f + 2Rz{J~) + 3 - 


i=l 


ln(l/(5) 
2 m 

ln(2/<5) 
2 m 


证明令 


初卜； E / ㈤ 


啦) = f 


Ez ( f ) 


同时，令 〆 为只与 z 有一个示例不同的训练集，不妨设 ；^ m e Z 和< 
不同示例，可得 


^{ Z )~ ^( Z ) 


supE 

feT 




4,⑺) 


supE 

feT 


彡 sup E z {f)-E zf {f) 
feT 

f( z m) - f(z m ) 


=sup 
fET 

1 

彡一 • 
m 


m 


EzU )) 


同理可得 




m 


m 


根据 McDiarmid 不等式 (12.7) 可知，对任意 6 G (0,1), 


^Z)^E z [^Z)} + J 1 ^^ 


(12.42) 

(12.43) 


G Z ’ 为 


(12.44) 
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利用 Jensen 不等式 
(12.4) 和上确界函数的凸 
性. 


CTi 与 - 分布相同. 


以至少 1-5 的概率成立.下面来估计 E z [$( Z )] 的上界: 


E z [^(Z)] = E z 


supE 

feT 


Ez(f) 


E z 


sup E z ， [4, ⑺ - 烏 ⑺] 1 




z，z' 


sup E z ，(/) 

£ y— *7— 

j€Jr 


⑺ 




i=l 


E 


cr.Z.Z 1 


= ㈤ ) 


i=l 


1 m , 


1 讯 

+ E^z I sup — V " -CTif(Zi) 


:1 


2 E<y Z 


眾命 / ㈤ : 


= 21 ⑺ • 

至此，式 (12.42) 得证.由定义 12.9 可知，改变 Z 中的一个示例对 R Z [ T ) 的值所 
造成的改变最多为 1/ m . 由 McDiarmid 不等式 (12.7) 可知， 


R Z [ T ) 


ln (2/5) 
2 m 


(12.45) 


以至少 1 - (5/2 的概率成立.再由式 (12.44) 可知， 


E Z mz )} 


ln (2/5) 
2m 


以至少 1 - 5/2 的概率成立.于是, 


^{ Z )^2 R z { T ) + ^ 
以至少 1-5 的概率成立.至此，式 (12.43) 得证. 


ln (2/ J ) 
2m 


(12.46) 


■ 


需注意的是，定理 12.5 中的函数空间 J 7 是区间丨0,. 1] 上的实值函数，因此 
定理 12.5 只适用于回归问题.对二分类问题，我们有下面的 定理： 
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— 2/的与内分布相同. 


定理 12.6 对假设空间开：尤->卜1,+1}，根据分布尸从 Y 中独立同分 
布采样得到示例集 D = { x ll x 2 ,..., x m }, Xi eM ,0 <S <1, 对任意 heH , 
以至少1 1(5 的概率有 

E{h) ^ 妄 ㈨ + Rm(n) + ? (12.47) 

E(h) ^ E(h) + R D (n) + • (12.48) 

证明对二分类问题的假设空间开，令 Z Y x {-1，+1}，则 H 中的假设 
h 变形为 

fh(z) = fh(x,y) = I(h(x) ^ y) , (12.49) 

于是 就可将值域为{-1,+1}的假设空间 H 转化为值域为[0，1]的函 数空间 
J r n = { fh：he H }. 由定义 12.8,有 


m 


Rzi^n) = ®<r 






E 。 


sup — V" ail(h(xi) ^ yi) 
l hen m 


m 


SUp — Vcii 


1 - yjh(xj) 
2 


m 


2 


E 。 


1=1 1=1 


2 E - 


sup — Y] (- y i a i h(x i )') 


% — 1 


^ Rd { V ). 


(12.50) 


对式 (12.50 ) 求期望后可得 

Rmi^n) = . (12.51) 

由定理 l 2 . 5 和式 (1 2 . 5 0) 〜 (1 2 . 5 1) ，定理 12.6 得证 . ■ 
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证明过程参阅 [Mohri et 
al ” 2012]. 


定理 12.6 给出了基于 Rademacher 复杂度的泛化误差界.与定理 12.3 对比 
可知，基于 VC 维的泛化误差界是分布无关、数据独立的，而基于 Rademacher 
复杂度的泛化误差界 (12.47) 与分布 P 有关，式 (12.48) 与数据 D 有关.换言之， 
基于 Rademacher 复杂度的泛化误差界依赖于具体学习问题上的数据分布，有 
点类似于为该学习问题“量身定制”的，因此它通常比基于 VC 维的泛化误差 
界更紧一些. 

值得一提的是，关于 Rademacher 复杂度与增长函数，有如下定理： 

定理 12.7 假设空间 W 的 Rademacher 复杂度 K 抝与增 长函数 
H n ( m ) 满足 

/21nn^(m) 

V m 

由式 ( l 2 . 47 )，(12.52) 和推论 12.2 可得 

也就是说，我们从 Rademacher 复杂度和增长函数能推导出基于 VC 维的泛化 
误差界. 


12.6 稳定性 

无论是基于 VC 维还是 Rademacher 复杂度来推导泛化误差界，所得到的 
结果均与具体学习算法无关，对所有学习算法都适用.这使得人们能够脱离具 
体学习算法的设计来考虑学习问题本身的性质，但在另一方面，若希望获得与 
算法有关的分析结果，则需另辟蹊径.稳定性 （ stability / 分析是这方面一个值 
得关注的方向 • 

顾名思义，算法的“稳定性”考察的是算法在输入发生变化时，输出是否 
会随之发生较大的变化.学习算法的输入是训练集，因此下面我们先定义训练 
集的两种变化. 

I 

给定 Z) = {z]_ = ( a?i , 2/1 )， 之 2 =(① 2, 2/2 )， " . ， 之 m = (®m ， Vm) } ， G % 是来 
自分布 尸的独 立同分布示例，访 = {-1,+1}.对假设空间 U\X ^ {-1，+1} 
和学习算法 2,令 表示基于训练集 D 从假设空间开中学得的假设.考 
虑 P 的以下变化： 


(12.52) 


(12.53) 
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D \ { 表示移除 D 中第 i 个样例得到的集合 


D'i = {之1， 之 2, • •. ， 之 i— 1， A+1，• . • ， 之 m}， 




D 1 表示替换 D 中第 i 个样例得到的集合 


D l = {zi, %,••• ， z i+1 , 


my 


mj ， 


其中; ^ ( a ?^ y .), x i 服从分布 P 并独立于 D . 

损失函数 ^ D ( x ), y ) : y x 3； ^ R + 刻画了假设的预测标记 ㈤ 与 
真实标记 y 之间的差别，简记为 £(£ d , z ). 下面定义关于假设的几种损失. 


泛化损失 


£(£,V) = ^ xe x,z^{x,y) [K^D,Z) 


经验损失 


m 


初，乃) (〜 a ) 

i=l 




留一 ( leave - one - out ) 损失 


(12.54) 


(12.55) 


£i 00 (2,D) = y^^(£ D \j, ^) 

i=l 


(12.56) 


下面定义算法的均匀稳定性 （uniform stability ): 

定义 12.10 对任何= 若学习算法£满足 


e(£ D ,z)-£(2 D \i,z) 


1, 2, …， 771, 


12.57、 


则称£关于损失函数彳满足斤均匀稳定性. 


显然，若算法关于损失函数彳满足 /?- 均勻稳定性，则有 


£(£ D ,z) -£(2 D i,z) 


^ ^(^Di Z ) ~ z ) + z ) ~ z ) 


< 2/3 ， 
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证明过程参阅 [ Bous - 
quet and Elisseeff , 2002]. 


最小化经验误差和最小 
化经验损失有时并不相同, 
这是由于存在某些病态的 
损失函数 < 使得最小化经 
验损失并不是最小化经验 
误差.为简化讨论，本章假 
定最小化经验损失的同时 
会最小化经验误差. 
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也就是说,移除示例的稳定性包含替换示例的稳定性. 

若损失函数€有界，即对所有 D 和 z = (% 2/) 有0彡 l (£ D , z )^ M , 则有 
[Bousquet and Elisseeff , 2002]: 

定理 12.8 给定从分布: D 上独立同分布采样得到的大小为 m 的示例集 
D , 若学习算法满足关于损失函数 《的 -均匀稳定性，且损失函数/的上界 
为 M , 0 < 5 < 1,则对任意 m 彡1，以至少1 — 6的概率有 

V ) ^ ?(£， D ) + 2冷 + (4 m /3 + M ) ， (12.58) 

£{^ V ) ^ £ loo {^ 乃)+ 卢 +. (4 m /3 + M ) . (12.59) 

定理 12.8 给出了基于稳定性分析推导出的学习算法£学得假设的泛化误 
差界.从式 (12.58) 可看出，经验损失与泛化损失之间差别的收敛率为 A #; 若 
P = 0(^), 则可保证收敛率为 0($). 与定理 12.3 和定理 12.6 比较可知，这 
与基于 VC 维和 Rademacher 复杂度得到的收敛率 一 致. 

需注意，学习算法的稳定性分析所关注的是|攻£，乃） - 〖(£， P )|, 而假设空 
间复杂度分析所关注的是 su P/ieH \ E ( h )- E ( h )\; 也就是说,稳定性分析不必考 
虑假设空间中所有可能的假设，只需根据算法自身的特性(稳定性 ) 来讨论输出 
假设的泛化误差界.那么，稳定性与可学习性之间有什么关系呢？ 

首先，必须假设 P 扣4 0 ,这样才能保证稳定的学习算法公具有一定的泛 
化能力，即经验损失收敛于泛化损失，否则可学习性无从谈起.为便于计算，我 
们假定卢=去，代入式 (12.58) 可得 

€(£， P ) 彡 €(£， D ) + — + (4 + M )^. (12.60) 

对损失函数 A 若学习算法公所输出的假设满足经验损失最小化,则称算法 
£满足经验风险最小化 （Empirical Risk Minimization ) 原则，简称算法是 ERM 
的.关于学习算法的稳定性和可学习性，有如下定理： 

定理 12.9 若学习算法£是 ERM 且稳定的，则假设空间开可学习. 

证明令9表示并中具有最小泛化损失的假设，即 
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£(仏！>) V ), 

hEiri 


再令 


/ 6 

: = 2 


2 


= 2 exp (- 2 m ( e ’) 2 ) 


由 Hoeffding 不等式( I 2 . 6 )可知，当 m >多 In |时 




€ 


以至少1 — (5/2 的概率成立.令式 (12.60) 中 


2 / . …、 / ln (2/ S ) 


m 


+ (4 + M ) 


2 m 


e 

2 5 


解得 m 二 0( 去 In i ) 使 


£(£, V ) ^ £(£, D ) + 


以至少 1 - 6/2 的概率成立.从而可得 


e 


£(^ V )-£( g , V )^£(^ D ) + ^- [ i ( g , D ) 

< ?(£, D ) - i { g , D ) + e 




e 


以至少 1-6 的概率成立.定理 12.9 得证. 


■ 


对上面这个定理读者也许会纳闷，为什么学习算法的稳定性能导出假设空 
间的可学习性？学习算法和假设空间是两码事呀.事实上，要注意到稳定性与 
假设空间并非无关，由稳定性的定义可知两者通过损失函数彳联系起来. 


12.7 阅读材料 • 

[ Valiant ，1984] 提出 PAC 学习，由此产生了 “计算学习理论”这个机器学 
习的分支领域 . [Kearns and Vazirani , 1994] 是一本很好的入门教材.该领域最 
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VC 维的名字就来自两 
位作者的姓氏缩写. 


重要的学术会议是国际计算学习理论会议 ( COLT ). 

VC 维由 [Vapnik and Chervonenkis , 1971] 提出，它的出现使研究无限假 
设空间的复杂度成为可能. Sauer 引理由于 [ Sauer , 1972] 而命名，但 [Vapnik 
and Chervonenkis , 1971] 和 [ Shelah , 1972] 也分别独立地推导出了该结果.本 
章主要讨论了二分类问题，对多分类问题，可将 VC 维扩展为 Natarajan 维 
[ Natarajan , 1989; Ben-David et al ., 1995]. 

Rademacher 复杂度最早被 [Koltchinskii and Panchenko , 2000] 引入机器 
学习，由 [Bartlett and Mendelson , 2003] 而受到重视. [Bartlett et al ., 2002] 提 
出了局部 Rademacher 复杂度，对噪声数据可推导出更紧的泛化误差界. 

机器学习算法稳定性分析方面的研究始于 [Bousquet and Elisseeff ，2002] 
的工作，此后很多学者对稳定性与可学习性之间的关系进行了讨论 ， [Mukherjee 
et al .，2006] 和 [ Shalev-Shwartz et al ., 2010] 证明了 ERM 稳定性与 ERM 可学 
习性之间的等价关系;但并非所有学习算法都是 ERM 的，因此 [ Shalev-Shwartz 
et al . , 2010] 进一步研究了 AERM (Asymptotical Empirical Risk Minimization ) 
稳定性与可学习性之间的关系. 

本章介绍的内容都是关于确定性 ( deterministic ) 学习问题，即对于每个示 
例® 都有一个确定的标记 y 与之对应；大多数监督学习都属于确定性学习问题. 
但还有一种随机性 （ stochastic ) 学习问题，其中示例的标记可认为是属性的后 
验概率函数，而不再是简单确定地属于某一类.随机性学习问题的泛化误差界 
分析可参见 [Devroye et al ., 1996]. 
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12.1 试证明 Jensen 不等式 (12.4). 

12.2 试证明引理 12.1. 

提 示：令 h 2e _ 2me ' 12.3 试证明推论 12.1. 

12.4 试 证明： 空间中线性超平面构成的假设空间的 VC 维是 d+1. 

12.5 试计算决策树粧假设空间的 VC 维. 

12.6 试 证明： 决策树分类器的假设空间 VC 维可以为无穷大. 

12.7 试 证明： 最近邻分类器的假设空间 VC 维为无穷大. 

12.8 试证明常数函数 c 的 Rademacher 复杂度为 0. 

12.9 给定函数空间乃、乃 5 试证明 Rademacher 复杂度^ 

12.10* 考虑定理12.8,试讨论通过交叉验证法来估计学习算法泛化能力的合 
理性. 
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休息 一会儿 


小 故事： 计算学习理论之父莱斯利•维利昂特 

计算机科学的绝大多数分支领域中都既有理论研究，也 
有应用研究，但当人们说到“理论计算机科学”时，通常 

是指一个特定的研究领域- TCS (Theoretical Computer 

Science ), 它可看作计算机科学与数学的交叉，该领域中最 
著名的问题是 “ P ?= NP ” . 

计算学习理论是机器学习的一个分支，它可认为是机器学习与理论计算机 
科学的交叉.提起计算学习理论，就必然要谈到英国计算机科学家莱斯利•维 
利昂特 (Leslie G . Valiant , 1949一）.维利昂特先后在剑桥大学国王学院、帝 
国理工学院学习，1974年在华威大学获计算机科学博士学位，此后曾在卡耐 
基梅隆大学、利兹大学和爱丁堡大学任教，1982年来到哈佛大学任计算机与 
应用数学讲席教授.1984年他在 《 ACM 通讯》发表了论文 “A theory of the 
leamable ” . 这篇论文首次提出了 PAC 学习，从而开创了计算学习理论的研究. 
2010年 ACM 授予维利昂特图灵奖，以表彰他对 PAC 学习理论的开创性贡献， 
以及他对枚举和计算代数复杂性等其他一些理论计算机科学问题的重要贡献. 
颁奖词特别指出，维利昂特在1984年发表的论文创立了计算学习理论这个研 
究领域，使机器学习有了坚实的数学基础，扫清了学科发展的障碍. 《 ACM 新 
闻》则以 MCM Turing Award Goes to Innovator in Machine Learning ” 为 

题对这位机器学习领域首位图灵奖得主的功绩大加褒扬. 
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例如基于 a 训练一个 
SVM , 挑选距离分类超平 
面最近的未标记样本来进 
行查询. 


即尽量少向瓜农询问. 


13.1 未标记样本 

我们在丰收季节来到瓜田，满地都是西瓜，瓜农抱来三四个瓜说这都是好 
瓜，然后再指着地里的五六个瓜说这些还不好，还需再生长若干天.基于这些信 •. 
息，我们能否构建一个模型，用于判别地里的哪些瓜是已该采摘的好瓜？显然， 
可将瓜农告诉我们的好瓜、不好的瓜分别作为正例和反例来训练一个分类器. 
然而，只用这不到十个瓜做训练样本，有点太少了吧？能不能把地里的那些瓜 
也用上呢？ 

形式化地看，我们有训练样本集 A 二{(^，^^，(^^，—，…，(邮切儿这/ 
个样本的类别标记(即是否好瓜)已知，称为“有标记” （ labeled ) 样本； 此外，还 
有凡 = { a ^ +1 , a ^+2, …， ^ i + u }, I 《 u ， 这 u 个样本的类别标记未知(即不知是 
否好瓜)，称为“未标记” （ unlabeled ) 样本.若直接使用传统监督学习技术，则 
仅有 A 能用于构建模型，所包含的信息被浪费了；另一方面，若 A 较小， 

则由于训练样本不足，学得模型的泛化能力往往不佳.那么，能否在构建模型的 
过程中将利用起来呢？ 

一个简单的做法，是将中的示例全部标记后用于学习.这就相当于请瓜 
农把地里的瓜全都检查一遍，告诉我们哪些是好瓜，哪些不是好瓜，然后再用于 
模型训练.显然，这样做需耗费瓜农大量时间和精力.有没有“便宜” 一点的 
办法呢？ 

我们可以用先训练一个模型，拿这个模型去地里挑一个瓜，询问瓜农好 
不好，然后把这个新获得的有标记样本加入 A 中重新训练一个模型，再去挑 
瓜，……这样，若每次都挑出对改善模型性能帮助大的瓜，则只需询问瓜农比较 
少的瓜就能构建出比较强的模型，从而大幅降低标记成本.这样的学习方式称 
为“主动学习 ” （active learning )， 其目标是使用尽量少的“查询” （ query ) 来获 
得尽量好的性能. 

显然，主动学习引入了额外的专家知识，通过与外界的交互来将部分未标 
记样本转变为有标记样本.若不与专家交互，没有获得额外信息，还能利用未标 
记样本来提高泛化性能吗？ 

答案是 “Yes !”，有点匪夷所思？ 
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事实上，未标记样本虽未直接包含标记信息，但若它们与有标记样本是从 
同样的数据源独立同分布采样而来，则它们所包含的关于数据分布的信息对建 
立模型将大有裨益.图 13.1 给出了一个直观的例示.若仅基于图中的一个正例 
和一个反例，则由于待判别样本恰位于两者正中间，大体上只能随机猜测；若能 
观察到图中的未标记样本，则将很有把握地判别为正例. 



# 


图 13.1 未标记样本效用的例示.右边的灰色点表示未标记样本 


让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能，就是 
半监督学习 ( semi-supervised learning ). 半监督学习的现实需求非常强烈，因为 
在现实应用中往往能容易地收集到大量未标记样本，而获取“标记”却需耗费 
人力、物力.例如，在进行计算机辅助医学影像分析时，可以从医院获得大量医 
学影像，但若希望医学专家把影像中的病灶全都标识出来则是不现实的.“有 
标记数据少，未标记数据多”这个现象在互联网应用中更明显，例如在进行网 
页推荐时需请用户标记出感兴趣的网页，但很少有用户愿花很多时间来提供标 
记，因此，有标记网页样本少，但互联网上存在无数网页可作为未标记样本来使 
用.半监督学习恰是提供了一条利用“廉价”的未标记样本的途径. 


“流形”概念是流形学 
习的基础，参见 10.5 节. 


聚类假设考虑的是类别 
标记，通常用于分类任务. 


要利用未标记样本，必然要做一些将未标记样本所揭示的数据分布信息与 
类别标记相联系的假设.最常见的是“聚类假设” (cluster assumption ), 即假 
设数据存在簇结构，同一个簇的样本属于同一个类别.图 13.1 就是基于聚类假 
设来利用未标记样本，由于待预测样本与正例样本通过未标记样本的“撮合” 
聚在一起，与相对分离的反例样本相比，待判别样本更可能属于正类.半监督 
学习中另一种常见的假设是“流形假设 ” （manifold assumption ), 即假设数据 
分布在一个流形结构上，邻近的样本拥有相似的输出值.“邻近”程度常用“相 
似”程度来刻画，因此，流形假设可看作聚类假设的推广，但流形假设对输出值 
没有限制，因此比聚类假设的适用范围更广;，可用于更多类型的学习任务.事实 
上，无论聚类假设还是流形假设，其本质都是“相似的样本拥有相似的输出” 
这个基本 假设. 
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半监督学习可进一步划分为纯 ( pure ) 半监督学习和直推学习 (transductive 
learning ), 前者假定训练数据中的未标记样本并非待预测的数据，而后者则假 
定学习过程中所考虑的未标记样本恰是待预测数据，学习的目的就是在这些 
未标记样本上获得最优泛化性能.换言之，纯半监督学习是基于“开放世界” 
假设，希望学得模型能适用于训练过程中未观察到的数据；而直推学习是基 
于“封闭世界”假设，仅试图对学习过程中观察到的未标记数据进行预测. 
图 13.2 直观地显示出主动学习、纯半监督学习、直推学习的区别.需注意的 
是，纯半监督学习和直推学习常合称为半监督学习，本书也采取这一态度，在需 
专门区分时会特别说明. 



图 I 3 . 2 主动学习、（纯 ) 半监督学习、直推学习 


13.2 生成式方法 


生成式方法 (generative methods ) 是直接基于生成式模型的方法.此类方法 
假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”的.这个假 
设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来，而未标 
记数据的标记则可看作模型的缺失参数，通常可基于 EM 算法进行极大似然估 
计求解.此类方法的区别主要在于生成式模型的假设，不同的模型假设将产生 
不同的方法. 


EM 算法参见 7.6 节. 
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这个假设意味着混合成 
分与类别之间 — 一一对应. 


高斯混合模型参见 9.4 
节. 


给定样本其真实类别标记为 y ey , 其中 y = {1,2,..., iV } 为所有可能 
的类别.假设样本由高斯混合模型生成，且每个类别对应一个 高斯混 合成分.换 
言之，数据样本是基于如下概率密度生成： 

N 

p ( izj ) = 〉: ol % • , (13.1) 

i=l 

其中，混合系数叫彡 o , Y^iLi a i = ^ p( x I 是样本尤 属于第 i 个高斯混 

合成分的概率；⑷和为该高斯混合成分的参数. 

令 f ( x ) e y 表示模型/对$的预测标记， 0 6 {1,2,. ..,7V} 表示样本 X 
隶属的高斯混合成分.由最大化后验概率可知 

f ( x ) = arg maxp(y j \ x ) 
jey 

N 

=arg max p(y = j^S = i \ x ) 


— arg max YAy = j I © — a；) . p(0 = i\x) , (13.2) 

i=l 

其中 

p{e = ilx) = ^Mj^l_ _ ( 13 . 3 ) 

• p{x 

i=l 

为样本由第 i 个高斯混合成 分生成 的后验概率, = j I㊀ =纟， 为尤由 
第 i 个高斯混合 成分生 成且其类别为 j 的概率.由于假设 每个类别对应一个高 
斯混合 成分， 因此 pQ / = j | 0 = i , a ?) 仅与样本 $ 所 属的高斯混合成分 ㊀ 有关， 
可用 v { y = j\e = i ) 代替.不失一般性，假定第 i 个类别对应于第 f 个高斯混 
合成分 ，即 / = j \ Q = i ) = l 当且仅当 i = 乂 否则 / = j \ & — i ) = 0. 

不难发现，式 (13.2) 中估计 j \ e = i , x ) 需知道样本的标记，因此仅 
能使用有标记数据；而、 p (© = i \ x ) 不涉及样本标记，因此有标记和未标记数据 
均可利用，通过引入大量的未标记数据，对这一项的估计可望由于数据 量的增 
长而更为准确，于是式 (13.2) 整体的估计可能会更准确.由此可清楚地看 出未标 
记数据何以能辅助提高分类模型的性能. 

给定有标记样本集 A = {(^，沿)，@2,?/2)， ... ，(心，奶八和未标记样本集 
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半监督学习中通常假设 
未标记样本数远大于有标 
记样本数，虽然此假设实 
际并非必须. 


高斯混合模型聚类的 
EM 算法参见 9.4 节. 


可通过有标记数据对模 
型参数进行初始化. 


D u = { xi + i , xi + 2, • • • , Xi +U }, I 《 u , l + u = m . 假设所有样本独立同分布，且 
都是由同一个高斯混合模型生成的.用极大似然法来估计高斯混合模型的参数 
E 0 | 1 ^ < N }, D t U D u 的对数似然是 


N 


LL { D t UD U )= 互二 In 乏]% . p( Xj p( yj | © = i 5 ^) 

{xj,yj)^Di \i=l 

+ ln ( I ^ i ^ i ) ) - 

3 Cjf £\ % ：=== -\ / 


(13.4) 


式 (13.4) 由两项 组成： 基于有标记数据的有监督项和基于未标记数据的 
无监督项.显然，高斯混合模型参数估计可用 EM 算法求解，迭代更新式 如下： 


• E 步： 根据当前模型参数计算未标记样本％属于各高斯混合成分的概率 


0^ • p{xj / x ^, 

/"V . "… — i — — 

N 

E a i - P( x j I tMji) 

i=l 


(13.5) 


• M 步： 基于更新模型参数,其中4表示第 i 类的有标记样本数目 


IM 


E iji + U 


z2 ^ x 3 + Y1 x j 


Xj ^ D % 




(^Xj ) ^.Di At/j —% 


(13.6: 




S Ifji ^ 

Xj ^ Dy, 


/] ^)( X j ~~ Mi 




xj £ D t 


+ - ^{xj - ^) T 

( x j ， yj)GDi/\yj=i 


(13.7) 


OLi 


/ , Iji + 


13.8) 




以上过程不断迭代直至收敛，即可获得模型参数.然后由式 (13.3) 和 (13.2) 就能 
对样本进行分类. 

将上述过程中的高斯混合模型换成混合专家模型 [Miller and Uyar , 
1997], 朴 素贝叶斯模型 [Nigam et al , 2000] 等即可推导出其他的生成式半 



298 


第 13 章半监督学习 


SVM 参见第 6 章. 


监督学习方法.此类方法简单，易于实现，在有标记数据极少的情形下往往比其 
他方法性能更好.然而，此类方法有一个 关键： 模型假设必须准确，即假设的生 
成式模型必须与真实数据分布吻合；否则利用未标记数据反倒会降低泛化性能 
[Cozman and Cohen , 2002]. 遗憾的是，在现实任务中往往很难事先做出准确 
的模型假设，除非拥有充分可靠的领域知识. 

13.3 半监督 SVM 

半监督支持向量机 （ Semi-Supervised Support Vector Machine , 简称 
S 3 VM ) 是支持向量机在半监督学习上的推广.在不考虑未标记样本时，支 
持向量机试图找到最大间隔划分超平面，而在考虑未标记样本后， S 3 VM 试 
图找到能将两类有标记样本分开，且穿过数据低密度区域的划分超平面，如 
图 13.3 所示，这里的基本假设是“低密度分隔” ( low-density separation )， 显 
然，这是聚类假设在考虑了线性超平面划分后的推广. 


S 3 VM 划分超平面 



SVM 划分超平面 


图 13.3 半监督支持向量机与低密度分隔 （ “+” “-”分别表示有标记的正、反例, 
灰色点表示未标记样本） 

半监督支持向量机中最著名的是 TSVM (Transductive Support Vector 
Machine ) [ Joachims , 1999]. 与标准 SVM 一样， TSVM 也是针对二分类问题 
的学习方法. TSVM 试图考虑对未标记样本进行各种可能的标记指派 (label 
assignment ), 即尝试将每个未标记样本分别作为正例或反例，然后在所有这些 
结果中，寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样 
本)上间隔最大化的划分超平面.一旦划分超平面得以确定，未标记样本的最终 
标记指派就是其预测结果. 
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形式化地说，给定 A = {{ xi , yi ),{ x 2 , y2 )^ • ^{ xuyi )} D u = { x i+1 , 
%+2,… ， a ? z + w }， 其中识 G {— 1, +1}， I 《 u , I u = ttl TSVM 的学习目标是 
为 D u 中的样本给出预测标记乡= ( yz+ij y ^+2? * • • j yi -\- u )'> y % ^ {— i ，+ i }， 使得 


mm - 

打力， 1/，C 2 


il + q ^2 &+ g ^ 

i=Z+l 


i=l 


i.t. yi(w T Xi + 6 ) 彡 1 — 


2 , … 


yi ( w T Xi + 6) 彡 1 — i = l + 1,1 + 2, …， m ， 


(13.9) 


i 


1，2, … 



其中， { w , b ) 确定了一个划分超 平面; $ 为松弛向量 ， = 对应于有 

标记样本，& (i = Z + 1 ,Z + 2, ...， m ) 对应于未标记样本； C / 与 C u 是由用户指 
定的用于平衡模型复杂度、有标记样本与未标记样本重要程度的折中参数. 

显然，尝试未标记样本的各种标记指派是一个穷举过程，仅当未标记样本 
很少时才有可能直接求解.在一般情形下，必须考虑更高效的优化策略. 

TSVM 采用局部搜索来迭代地寻找式 (13.9) 的近似解.具体来说，它先利 
用有标记样本学得一个 SVM , 即忽略式 (13.9) 中关于 D u 与公 的项及约束.然 
后，利用这个 SVM 对未标记数据进行标记指派 (label assignment ), 即将 SVM 
预测的结果作为“伪标记” （ pseudo - label ) 赋予未标记 样本. 此时公成为已知， 
将其代入式 (13.9) 即得到一个标准 SVM 问题，于是可求解出新的划分超平面和 
松弛向量；注意到此时未标记样本的伪标记很可能不准确，因此要设置为比 
Q 小的值，使有标记样本所起作用更大.接下来， TSVM 找出两个标记指派为 
异类且很可能发生错误的未标记样本，交换它们的标记，再重新基于式 (13.9) 求 
解出更新后的划分超平面和松弛向量，然后再找出两个标记指派为异类且很可 
能发生错误的未标记样本，……标记指派调整完成后，逐渐增大匕以提高未标 
记样本对优化目标的影响，进行下一轮标记指派调整，直至= Q 为止.此时 
求解得到的 SVM 不仅给未标记样本提供了标记，还能对训练过程中未见的示 
例进行预测. TSVM 的算法描述如图 13.4 所示. 


类别不平衡问题及 
式 (13.10) 的缘由见 3.6 节. 


在对未标记样本进行标记指派及调整的过程中，有可能出现类别不平衡向 
题，即某类的样本远多于另一类，这将对 SVM 的训练造成困扰.为了减轻类别 
不平衡性所造成的不利影响，可对图 13.4 的算法稍加改进：将优化目标中的 
项拆分为0与两项，分别对应基于伪标记而当作正、反例使用的未标记 
样本，并在初始化时令 
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此时$为已知. 

仏与 Vj 进行调整. 

提高未标记样本的影响. 


收.敛性证明参阅 

[ Joachims , 1999]. 


输入： 有琴 记样本集 A = {Oci，yi)，(aj 2 ,y 2 ),...，(a^，y z )}; 

未标记样本集 = {ccz+i, a^z+2 ,... , x i+u }] 

折中参数 C w . 

过程： 

1： 用 A 训练一个 SVM Z; 

2 :用 SVM 〖对凡中样本进行预测，得到 d = U+2,.. • ， yi + u )\ 

3:初始化 

4 ： while C u < Ci do 

5 ： 基于 Di ’ Du^CuCu 求解式 (13.9)， 得到（忉, 6), 

6 ： while 3{iJ \ (⑽ j < 0) A > 0) A > 0) A (& + 匕 > 2)} do 

A A 

7 : Vi — ~Vi\ 

8 ： yj = -yj\ 

9： 基于以，几，分,<^，4重新求解式(13.9)，得到 { w , b),i 

10 ： end while 
11: C u = mm{2C u ,Ci} 

12 ： end while 

输出：未标记样本的预测结果：公 = ( yi + i , yi +2 ,..., yi + u ) 


图 13.4 TSVM 算法 




乜+ 


C ： 


(13.10) 


其中 M + 与为基于伪标记而当作正、反例使用的未标记样本数. 


在图 13.4 算法的第 6-10 行中,若存在一对未标记样本与其标记 
指派认与込不同，且对应的松弛变量满足& + & > 2 ,则意味着 兔与込 很可 
能是错误的，需对二者进行交换后重新求解式(13.9)，这样每轮迭代后均可使 
式 (13.9) 的目标函数值下降 . 、 

显然，搜寻标记指派可能出错的每一对未标记样本进行调整，是一个涉 
及巨大计算开销的大规模优化问题.因此，半监督 SVM 研究的一个重点是 
如何设计出高效的优化求解策略，由此发展出很多方法，如基于图核 (graph 
kernel ) 函数梯度下降的 LDS [Chapelle and Zien , 2005]、基于标记均值估计的 
meanS 3 VM [Li et al ., 2009] 等. 

13.4 图半监督学习 

给定一个数据集，我们可将其映射为一个图，数据集中每个样本对应于图 
中一个结点，若两个样本之间的相似度很高(或相关性很 强)， 则对应的结点之间 
存在一条边，边的“强度” ( strength ) 正比于样本之间的相似度(或相关性).我 
们可将有标记样本所对应的结点想象为染过色，而未标记样本所对应的结点尚 
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能量函数最小化时即得 
到最优结果. 


W 为对称矩阵，因此山 
亦为 W 第 i 列元素之和. 


未染色.于是，半监督学习就对应于“颜色”在图上扩散或传播的过程.由于一 
个图对应了一个矩阵，这就使得我们能基于矩阵运算来进行半监督学习算法的 
推导与分析. 

给定 = {(^1 , 2/1)， （®2, 2/2)， • • . ， Vl )} ^ = j . • • ， 5 

l + u = 我们先基于 A U 构建一个图 G = ( V , E ), 其中结点 

集 v = {xi,.. ., xi , xi + i ,... , xi + u }, 边集五 可表示为一个亲和矩阵 (affinity 
matrix), 常基于高斯函数定义为 


( W )^ 


exp 
0 , 


\\ x i~ x J 


2cr 2 


+ 3 \ 

otherwise 


(13.11) 


其中 f，j e {1，2,... ， m}，cr > 0 是用户指定的高斯函数带宽参数. 

假定从图 G = ( V , E ) 将学得一个实值函数 f : V -^ R , 其对应的分类规则 
为：汸二 sign(/(ajj)), yi G {-1,+1}.直观上看，相似的样本应具有相似的标记， 
于是可定义关于/的“能量函数” （energy function) [Zhu et al. ? 2003]: 


E(f] 


EE( w )W ㈤- 他 )) 

%=.\ j=\ 


2 


2 


E 忒尸 ㈤ + ^djf 2 (xj) - 2^^(W) 勿 / ㈤ /(%: 


j — 1 


i=l j=l 


X^i/ 2 ㈤ - X^(w) 勿 ./㈤/㈣ 

^ 1 j 


i=l 


/ t (D-W)/ 


13.12) 


其中 / = (/i 1 /J) T 5 fi = ( f { x 1 yj ( x 2 );...; f ( xi )), f u = ( f ( xi +1 ); 
f ( x i+2 )； ..•； f ( x i + u )) 分别为函数 / 在有标记样本与未标记样本上的预测结果, 
D = diag 叫，‘…， d l + u ) 是一个对角矩阵，其对角元素表= E l jt U iO ^) ij 为矩 
阵 M 的第 i 行元素之和. 

具有最小能量的函数/在有标记样本上满足 f ( xi ) = yi ( i 二 1，2，...，Z)， 

在未标记样本上满足 △/ = 0,其中 A = D-W 为拉普拉斯矩阵 (Laplacian 

W u W lu 


matrix ). 以第 Z 行与第〖列为界，釆用分块矩阵表示方式： "W 


W , 
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D 


Du Oi u 
Qul ^uu 


则式 (13.12) 可重写为 


m) = ( f ? fu ) 


Bil Oiu 
OtiZ ^uu 


w uZ w 腿 


fl 

fu 


Jf (Pu - ^u)fi - 2f^W ul f t + /J CD UU - w uu )f u 


由 = 0 可得 


令 


fu = (D W uu )~ 1 W u ifi 


p = D— 工 \¥ = 

"d ^ 1 Oiu _ 


'W u Wi u ' 



^ui D 乜乜 

』 

Wui w uu _ 


DpW" 





^UU^ul 





即 = D 』 W 丽 ， Py = D ^ W uh 则式 (13.15) 可重写为 

fu = (Duu(I- 

=(I — 

= ( l - P uu )~ 1 F ul f l . 


(13.13) 

(13.14) 


(13.15) 


(13.16) 


(13.17) 


于是，将 A 上的标记信息作为力 =(2/1； 2/2； … ; yi ) 代入式(13.17)，即可利用求 
得的九对未标记样本进行预测. 

上面描述的是一个针对二分类问题的标记传播 (label propagation ) 方法，下 
面来看一个适用于多分类问题的标记传播方法 [Zhou et al ., 2004]. 

假定队 G 乂仍基于 A u 凡构建一个图 G = ( F ， E )， 其中结点 
集 F = { x u ..., x h ..., xi + u }, 边集五所对应的 W 仍使用式(13.11)，对 
角矩阵 D = 的对角元素4 = Eiti ( W )^. 定义一 

个 （Z + M ) x |； V | 的非负标记矩阵 F 二 ( Fj , Fj 5 .. ., Fj +u ) T , 其第 f 行元素 
Fi = (( F ) a ,( F ) i 25 ... 5 ( F ) w ) 为示例而的标记向量，相应的分类规 则为: 
Vi = argmaXi^^^^F)^. 

对 S = 1，2, • • • ， m , j = 1，2, •.. ，|，将 F 初始化为 
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F (0) = ( Y)o = 



if (1 < Z ) A (yi = j ); 
otherwise . 


(13.18) 


显然， Y 的前丨行就是 Z 个有标记样本的标记向量.- 

基于 W 构造一个标记传播矩阵 S = D - iWD - i , 其中 D ^ = 

diag …，太 ) ’于是有迭代计算式 

F(t + 1) = aSF(t) + (1 — a)Y ,， （ 13.19) 

其中 (0,1) 为用户指定的参数，用于对标记传播项 SF ( t ) 与初始化项 Y 的 
重要性进行折中.基于式 (13.19) 迭代至收敛可得 

F* = lim F(t) = (1 — a) (I — aSJ^Y, (13.20) 

th-bOO ' ' 

由 F* 可获得队中样本的标记 ( U + 2 ,.- 算法描述如图 13.5 所示. 

t - 


输入：有标记样本集 A = {( sci , yi ), ( x 2l 2 / 2 ), • • •, ( xuyi )}; 
未标记样本集 Ai = {而 +1 ，心 +2,…， ® z +n }; 

构图参数 a ; 

折中参数 a . 

过程： 

1:基于式 (13.11) 和参数 a 得到 W ; 

2:基于 W 构造标记传播矩阵 S = - 

3:根据式 (13.18) 初始化 F (0); 

4: t = 0; 

5: repeat 

6: F{t + 1) = aSF ( t ) + (1 — a ) Y ; 

71 t = t \ 

8： until 迭代收敛至 F * 

9: for i = / 4-1, / + 2,..., ^ + u do 
10: yi = axgmax^^i^^F*)^ 

11： end for 

输出：未标记样本的预测结果：彡 =( Uz +2,.. •，访 + w ) 


图 13.5 迭代式标记传播算法 


事实上，图 13.5 的算法对应于正则化框架 [Zhou et al ., 2004] 


ixim 
F 2 


■< / l-\-u 

5 E( w ) 


ij 


z , j=l 


1 


: F , 


1 


y/di \ f^j 


F 


3 


2 


+" Eiimi 2 ， ( 13 . 21 ) 


i=l 
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其中 " > 0为正则化参数.当时，式 (13.21) 的最优解恰为图 13.5 算法 
的迭代收敛解 F ” 

式 (13.21) 右边第二项是迫使学得结果在有标记样本上的预测与真实标记 
尽可能相同，而第一项则迫使相近样本具有相似的标记，显然，它与式 (13.12) 都 
是基于半监督学习的基本假设，不同的是式 (13.21) 考虑离散的类别标记，而 
式 (13.12) 则是考虑输出连续值. 

图半监督学习方法在概念上相当清晰，且易于通过对所涉矩阵运算的分析 
来探索算法性质.但此类算法的缺陷也相当明显.首先是在存储开销上，若样 
本数为 0( m ), 则算法中所涉及的矩阵规模为 0( m 2 )， 这使得此类算法很难直接 
处理大规模数据；另一方面，由于构图过程仅能考虑训练样本集，难以判知新样 
本在图中的位置，因此，在接收到新样本时，或是将其加入原数据集对图进行重 
构并重新进行标记传播，或是需引入额外的预测机制，例如将 A 和经标记传播 
后得到标记的合并作为训练集，另外训练一个学习器例如支持向量机来对 
新样本进行预测. 

13.5 基于分歧的方法 

与生成式方法、半监督 SVM 、 图半监督学习等基于单学习器利用未标记 
数据不同，基于分歧的方法 ( disagreement-based methods ) 使用多学习器，而学 
disagreement 亦称 diver- 习器之间的“分歧” （ disagreement ) 对未标记数据的利用至关 重要. 

ity. 

“协同训练” （ co - training ) [Blum and Mitchell , 1998] 是此类方法的重要 
代表，它最初是针对“多视图” （ multi - view ) 数据设计的，因此也被看作“多视 
图学习” （ multi-view learning ) 的代表.在介绍协同训练之前，我们先看看什么 
是多视图数据. 

在不少现实应用中，一个数据对象往往同时拥有多个“属性集” (attribute 
set ), 每个属性集就构成了一个“视图” （ view ). 例如对一部电影来说，它拥有 
多个属性集：图像画面信息所对应的属性集、声音信息所对应的属性集、字幕 
信息所对应的属性集、甚至网上的宣传讨论所对应的属性集等.每个属性集都 
’可看作一个视图.为简化讨论，暂且仅考虑图像画面属性集所构成的视图和声 
音属性集所构成的视图.于是，一个电影片段可表示为样本 (( x \ x 2 ) iy ), 其中 
d 是样本在视图 i 中的示例，即基于该视图属性描述而得的属性向量，不妨假 
定 V 为图像视图中的属性向量， d 为声音视图中的属性向量；？/是标记，假定 
是电影的类型，例如“动作片”、“爱情片”等.这样的数据就是 
多视图数据. > 
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弱分类器参见第8章. 


例如电影 ® 面与声音显 
然不会是条件独立的. 


单视图数据即仅有一个 
属性集合的常见数据. 


假设不同视图具有“相容性” ( compatibility ), 即其所包含的关于输出空 
间少 的信息是一致的 ：令; V 1 表示从图像画面信息判别的标记空间， y 2 表示从 
声音信息判别的标记空间，则有3； = y 1 = y 2 , 例如两者都是{爱情片，动作片}， 
而不能是 y 1 = {爱情片，动作片 } 而; V 2 = {文艺片,惊悚片在此假设下，显式 
地考虑多视图有很多好处.仍以电影为例，某个片段上有两人对视，仅凭图像画 
面信息难以分辨其类型，但此时若从声音信息听到“我爱你”，则可判断出该 
片段很可能属于“爱情 片”； 另一方面，若仅凭图像画面信息认为“可能是动 
作片”，仅凭声音信息也认为“可能是动作片”，则当两者一起考虑时就有很 
大的把握判别为“动作片”.显然，在“相容性”基础上，不同视图信息的“互 
补性”会给学习器的构建带来很多便利. 

协同训练正是很好地利用了多视图的“相容互补性”.假设数据拥有两个 
充分 ( sufficient ) 且条件独立视图，“充分”是指每个视图都包含足以产生最优 
学习器的信息，“条件独立”则是指在给定类别标记条件下两个视图独立.在 
此情形下，可用一个简单的办法来利用未标记 数据： 首先在每个视图上基于有 
标记样本分别训练出一个分类器，然后让每个分类器分别去挑选自己“最有把 
握的”未标记样本赋予伪标记，并将伪标记样本提供给另一个分类器作为新 
增的有标记样本用于训练更新……这个“互相学习、共同进步”的过程不断 
迭代进行，直到两个分类器都不再发生变化，或达到预先设定的迭代轮数为止. 
算法描述如图 13.6 所示.若在每轮学习中都考察分类器在所有未标记样本上 
的分类置信度，会有很大的计算开销，因此在算法中使用了未标记样本缓冲池 
[Blum and Mitchell , 1998]. 分类置信度的估计则因基学习算法而异，例如若 
使用朴素贝叶斯分类器，则可将后验概率转化为分类置 信度； 若使用支持向量 
机，则可将间隔大小转化为分类置信度. 

协同训练过程虽简单，但令人惊讶的是，理论证明显示出，若两个视图充分 
且条件独立，则可利用未标记样本通过协同训练将弱分类器的泛化性能提升到 
任意高 [Blum and Mitchell , 1998]. 不过，视图的条件独立性在现实任务中通常 
很难满足 5 因此性能提升幅度不会那么大，但研究表明，即便在更弱的条件下， 
协同训练仍可有效地提升弱分类器的性能 [周 志华， 2013]. 

协同训练算法本身是为多视图数据而设计的，但此后出现了一些能在单视 
图数据上使用的变体算法，它们或是使用不同的学习算法 [Goldman and Zhou , 
2000], 或使用不同的数据采样 [Zhou and Li ? 2005 b ], 甚至使用不同的参数设置 
[Zhou and Li 5 2005 a ] 来产生不同的学习器，也能有效地利用未标记数据来提升 
性能.后续理论研究发现，此类算法事实上无需数据拥有多视图，仅需弱学习器 
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Xi 的上标仅用于指代两 

个视图，不表示序关系，即 
与 表示 

的是同一个样未. 

令 p , n 《 s . 


初始化每个视图上的有 
标记训练集. 


在视图 j 上用有标记样 
本训练 


扩充有标记数据集. 


因此，该类方法被称为 
基于分歧的方法”. 


输入： 有标记样本集 Di = {(( xl . xD . yx ),..., (( xj . x ^. yi )}] 

未标记样本集 Ax = {(xj^x ^),... , (xj +u , x 2 l+u )}] 

缓冲池大小 s ; 

每轮挑选的正例数 p ; 

每轮挑选的反例数 n ; 

基学习算法£; 

学习轮数 T . ’ 

过程： 

1:从中随机抽取 s 个样本构成缓冲池 D s; 

2t D u = D u \ Ds'i 

3: for .7 = 1,2 do 一 

4: Df = {( x ^ Vi ) I e A }; 

5: end for 

6: for t = 1,2,... ,T do 
7： for j = 1,2 do 
8: hj — £( Df ); 

9： 考察 ~ •在 D 〗={<• I 〈<•， x s r j ) e D s } 上的分类置信度，挑选 p 个正例 

置信度最高的样本 C L > s 、 n 个反例置信度最高的样本 C 乃 3 ; 

10: 由丐生成伪标记正例 = {{ x ]-\^ l)\xi G 啡 

11： 由 ％ 生成伪标记反例 £>l~ j = G Di}; 

12 : D s = D s \ {Dp D n )] 

13: end for 

14: if h2 均未发生改变 then 

15： break 

16: else 一 

IT ： for j = 1,2 do 

i 8: Di = Di \ j (£> iuf >( y , 

19： end for 

20: 从中随机抽取 + 2 n 个样本加入 

21： end if 
22: end for 

输出： 分类器 / ll ，/ l 2 


图 13.6 协同训练算法 

之间具有显著的分歧(或差异)，即可通过相互提供伪标记样本的方式来提升泛 
化性能丨周志华， 2013]; 不同视图、不同算法、不同数据采样、不同参数设置 
等，都仅是产生差异的渠道，而非必备条件. 

基于分歧的方法只需采用合适的基学习器，就能较少受到模型假设、损失 
函数非凸性和数据规模问题的影响，学习方法简单有效、理论基础相对坚实、 
适用范围较为广泛.为了使用此类方法，需能生成具有显著分歧、性能尚可的 
多个学习器,但当有标记样本很少，尤其是数据不具有多视图时，要做到这一点 
并不容易，需有巧妙的设计. 
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参见 10.6 节. 


初始化 fc 个空簇. 


更新均值向量. 


13.6 半监督聚类 

聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获 
得一些额外的监督信息，于是可通过半监督聚类 ( semi-supervised clustering ) 来 
利用监督信息以获得更好的聚类效果. 

聚类任务中获得的监督信息大致有两种类型.第一种类型是“必连” 
( must - link ) 与“勿连” ( cannot - link ) 约束，前者是指样本必属于同一个簇，后 
者是指样本必不属于同一个簇;第二种类型的监督信息则是少量的有标记样本. 

约束 & 均值 (Constrained A :- means ) 算法 [WagstafF et al ., 2001] 是利用第 
一 类监督信息的代表.给定样本集乃= {^,^2,...,^} 以及“必连”关系 


输入：样本集 D = x m }; 

必连约束集合 ; 

勿连约束集合 C ; 

聚类簇数 /c. 

过程： 

1: 从 D 中随机选取个样本作为初始均值向量 

2: repeat 

3: Cj = 0 (I ^ j ^ k); 

4: for 2 = 1,2,..., m do 

5 ： 计算样本叫与各均值向量内 (1 ^ j ^ k) 的距离：知 = \ \xi~ fj,j\\2 ; 

6 ： /C ~ {1, 2, ... , k}] 

7: is_merged=f alse; 

8: while -i isjnerged do 

9: 基于 /C 找出与样本化距离最近的簇 ：r = argmin^^^ dij ; 

10 ： 检测将 A 划入聚类簇 CV 是否会违背 M 与 C 中的约束； 

11: if -i is_voilated then 

12: C r = C r 

13 ： is_merged=true 

14 ： else 

15 ： /C = /C \ {r}; 

16 ： if /C = 0 then 

17 ： break 并返回错误提示 

18 ： end if 

19: end if 

20 ： end while 

21 ： end for 

22: for j 二 1,2, •.. ， A; do 

23: fij = |^-| J2xeCj x: > 

24 ： end for 

25 ： until 均值向量均未更新 

输出：簇划分 _ 

图 13.7 约束 / c 均值算法 
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集合和“勿连”关系集合 C ， (xi,Xj) G M 表不而与 ccj 必属于同簇， 
均值算法见 9 . 4 .1 节. （化,％) eC 表示而与％必不属于同簇.该算法是 / c 均值算法的扩展，它在聚 

类过程中要确保与 C 中的约束得以满足，否则将返回错误提示，算法如图 
13.7 所示. 

见 P . 202 表 9 丄 以西瓜数据集 4.0 为例，令样本与《25,尤12与尤20,尤14与尤17之间存在 

必连约束，吻与尤21, « 13 与 CC 23 , 0? 19 与$23之间存在勿连约束，即 

M = {(> 4 , $ 25 )，(尤 25 , $ 4 )，(尤 12 , $ 20 )，(尤 20 , « 12 )，(« 14 , $ 17 )，(« 17 , ® 14 )}， 

C = {{ x 2l $ 21 )，(> 21 ，$ 2 )，($ 13 , $ 23 )，(> 23 , ^ 13 ), (« i9 , $ 23 )，($ 23 , $ 19 )}. 

设聚类簇数 /c = 3,随机选取样木 CC 6, $12, ^27作为初始均值向量，图 13.8 


0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

密度 密度 

( C ) 第3轮迭代后 ⑷第4轮迭代后 

图 13.8 西瓜数据集 4.0 上约束 / c 均值算法 （ A : = 3) 在各轮迭代后的结果.样本点与 
均值向量分别用“•”与“+”表示，必连约束和勿连约束分别用实线段与虚线段表示，红 
色虚线显示出簇划分. 


0.8 


0.1 0.2 0.3 0.4 0.5 0.6 0.7 

密度 

( a ) 第1轮迭代后 


0.9 


0.2 0.3 0.4 0.5 0.6 0.7 

密度 

( b ) 第2轮迭代后 


0.9 
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此处样本标记指簇标 
记 (duster label ), 不是类别 
标记 (class label ). 


S CD, | 5 | < \D\. 


用有标记样本初始化簇 

中心. 


用有标记样本初始化 fc 
个簇. 


更新均值向量. 


显示出约束&均值算法在不同迭代轮数后的聚类结果.经5轮迭代后均值向量 
不再发生变化(与第4轮迭代相同)，于是得到最终聚类结果 

Cl = ®13, a? 14 , ®16, $ 17 , ®2l }； 

C 2 = {a?6,*8, ®io, xn,xi 2 , x lb , cc 18 , x 19 , x 2 o}; 

C 3 = {xi,X 2 , X4 , X 22 , 工 23, ®24, ^25, *26, ®27, ®28, 怎 29, ®3o}- 


第二种监督信息是少量有标记样本.给定样本集 D = { x 1 , x 2 ,..., x m }, 
假定少量的有标记样本为 S = U )=1 C D , 其中巧 # 0 为隶属于第 j 个聚 
类簇的样本.这样的监督信息利用起来很 容易： 直接将它们作为“种子”，用 
它们初始化均值算法的个聚类中心，并且在聚类簇迭代更新过程中不改 
变种子样本的簇隶属关系.这样就得到了约束种子&均值 (Constrained Seed 
fc - means ) 算法 [Basil et al .，2002]， 其算法描述如图 13.9 所示. 


输入：样本集乃 = 

少量有标记样本 S = U, fe = i Sj ; 

聚类簇数 /c. 

过程： 

1 ： for j = 1,2,…， /c do 

2: ^3 = l^T ^xeSj x 

3 ： end for 

4: repeat 

5: Cj =0 (l^j ^ k)] 

6: for j = 1 ， 2, … ， A; do 

7: for all x £ Sj do 

8: Cj = Cj \J{x} 

9: end for 

10 ： end for 
11 ： for all XieD\S do 

12: 计算样本化与各均值向量化 (1 < j ^ k) 的距离：知 =|| 而 - /jLj\\ 2 ； 

13: 找出与样本 sc; 距离最 近的襄 ： r = a,Tgmm je ^ 12 k y dij ; 

14: 将样本仏划入相应 的簇： C r = CV [j{xi} 

15: end for 

16 ： for』• = 1 ， 2,…， do 

17: fij = YlxeCj x: > 

18: end for 

19 ： until 均值向量均未更新 

输出： 簇划分 {(^，。，…，(^} 


图 13.9 约束种子 A : 均值算法 
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0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

密度 密度 

( c ) 第3轮迭代后 （ d ) 第4轮迭代后 


图 13.10 西瓜数据集 4.0 上约束种子 / c 均值算法 （ A ; = 3) 在各轮迭代后的结果.样本 
点与均值向量分别用“•”与“+”表示，种子样本点为红色，红色虚线显示出簇划分. 


u — 
0.1 


0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

密度 


( a ) 第1轮迭代后 


0.1 0.2 0.3 0.4 0.5 0.6 0.7 

密度 

( b ) 第2轮迭代后 


0.9 


no 


仍以西瓜数据集 4.0 为例，假定作为种子的有标记样本为 

$1 = {3^45^25}? ^2 — {^12?*^2o}? = {*^145 *^17} - 

以这三组种子样本的平均向量作为初始均值向量，图 13.10 显示出约束种子 A : 
均值算法在不同迭代轮数后的聚类结果.经4轮迭代后均值向量不再发生变 
化(与第3轮迭代相同)，于是得到最终聚类结果 

Cl = {xi,X 2 ^ X 4 , X 22 , 尤 23 , ® 24 , ® 25 , 尤 26 , x 27 , ® 28 , 尤 29 , ® 3 o }； 

^2 == {*^65 «^ 7 1 尤 8 , *®11 ? 尤 12 ,尤 15 , «^ 18 ) ® 19 , *^ 20}5 

C ^3 = { 尤 3 , 尤 5 , ® 9 , 尤 13 , $ 14 ,尤 16 , 尤丄 7 , 尤 2 l}. 


5.7.6.5.4.3.2.1 

v* 0 . 0 . 0 . 0 . 0 . 0 . 0 . 

脊#命 


A 


c 


.0.7.6.5.4.3.2.1 

U.0.0.0.0.0.0.0. 



.0.7.6.5.4.3.2.1 

V.O.0.0.0.0.0.0. 

脊#命 



.0.7.6.5.4.3.2.1 
l».0.0. 0.0.0.0.0. 
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fc 近邻图和 e 近邻图参 
见 10.5.1 节. 


许多集成学习研究者认 
为： 只要能使用多个学习 
器即可将弱学习器性能提 
升到极高，无须使用未标 
记 样本； 许多半监督学习 
研究者认为：只要能使用 
未标记样本即可将弱学习 
器性能提升到极高，无须 
使用多学习器.但这两种 
看法都有其局限. 


13.7 阅读材料 

半监督学习的研究一般认为始于 [Shahshahani and Landgrebe , 1994 J , 该 
领域在二十世纪末、二十一世纪初随着现实应用中利用未标记数据的巨大需 
求涌现而蓬勃发展.国际机器学习大会 ( ICML ) 从2008年开始评选“十年最佳 
论文”，在短短6年中，半监督学习四大范型 ( paradigm ) 中基于分歧的方法、 
半监督 SVM 、 图半监督学习的代表性工作先后于2008年 [Blum and Mitchell , 
1998]、2009年 [ Joachims , 1999]、2013年 [Zhu et al . ? 2003] 获奖. 

生成式半监督学习方法出现最早 [Shahshahani and Landgrebe , 1994]. 由 
于需有充分可靠的领域知识才能确保模型假设不至于太坏，因此该范型后来主 
要是在具体的应用领域加以研究. 

半监督 SVM 的目标函数非凸，有不少工作致力于减轻非凸性造成的不 
利影响，例如使用连续统 ( continuation ) 方法，从优化一个简单的凸目标函数开 
始，逐步变形为非凸的 S 3 VM 目标函数 [Chapelle et al ., 2006 a ]; 使用确定性退 
火 (deterministic annealing ) 过程，将非凸问题转化为一系列凸优化问题，然后 
由易到难地顺序求解 [Sindhwani et al . 5 2006]; 利用 CCCP 方法优化非凸函数 
[Collobert et al ., 2006] 等. 

最早的图半监督学习方法 [Blum and Chawla , 2001] 直接基于聚类假设， 
将学习目标看作找出图的最小割 ( rnincut ). 对此类方法来说，图的质量极为重 
要， 13.4 节的高斯距离图以及 A ; 近邻图、 e 近邻图都较为常用，此外已有一些 
关于构图的研究 [Wang and Zhang , 2006; Jebara et al ., 2009], 基于图核 (graph 
kernel ) 的方法也与此有密切联系 [Chapelle et al ., 2003]. 

基于分歧的方法起源于协同训练，最初设计是仅选取一个学习器用于预测 
[Blum and Mitchell , 1998]. 三体训练 ( tri - training ) 使用三个学习器，通过“少 
数服从多数”来产生伪标记样本，并将学习器进行集成 [Zhou and Li , 2005 b ]. 
后续研究进一步显示出将学习器集成起来更有助于性能提升，并出现了使用更 
多学习器的方法.更为重要的是，这将集成学习与半监督学习这两个长期独立 
发展的领域联系起来 [ Zhou , 2009]. 此外，这些方法能容易地用于多视图数据, 
并可自然地与主动学习进行结合[周志华， 2013]. 

[Belkin et al ., 2006] 在半监督学习中提出了流形正则化 (manifold regular - 
ization ) 框架，直接基于局部光滑性假设对定义在有标记样本上的损失函数进行 
正则化，使学得的预测函数具有局部光滑性. 


半监督学习在利用未标记样本后并非必然提升泛化性能，在有些情形下甚 
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这里的“安全”是指利 
用未标记样本后，能确保 
泛化性能至少不差于仅利 
用有标记样本. 


至会导致性能下降.对生成式方法，其成因被认为是模型假设不准确 [Cozman 
and Cohen , 2002], 因此需依赖充分可靠的领域知识来设计模型.对半监督 
SVM ， 其成因被认为是训练数据中存在多个“低密度划分”，而学习算法有可 
能做出不利的选择； S 4 VM [Li and Zhou , 2015] 通过优化最坏情形性能来综合 
利用多个低密度划分，提升了此类技术的安全性.更一般的“安全” （ safe ) 半监 
督学习仍是一个未决问题. 

本章主要介绍了半监督分类和聚类，但半监督学习已普遍用于各类机器学 
习任务，例如在半监督回归 [Zhou and Li , 2005 a ], 降维 [Zhang et al ., 2007] 等 
方面都有相关研究.更多关于半监督学习的内容可参见 [Chapelle et al , 2006 b ; 
Zhu , 2006], [Zhou and Li , 2010; 周志华， 2013] 专门介绍了基于分歧的方法. 
[ Settles , 2009] 是一个关于主动学习的介绍. 
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习题 

13.1 试推导出式 (13.5) 〜 (13.8). 

13.2 试基于朴素贝叶斯模型推导出生成式半监督学习算法. 

13.3 假设数据由混合专家 (mixture of experts ) 模型生成，即数据是基于 
个成分混合而得的概率密度生成： 

k 

p(x \ 0 ) = Y^Oii-p(x\ 0 i) , (13.22) 

i=l 

其中 0 二{仏，0 2 , . •. ， 是模型参数 ，〆 a ? I 氏） 是第 i 个混合成分的 
概率密度，混合系数> 0, OLi — 1 . 假设每个混合成分对应一 
个类别，但每个类别可包含多个混合成分.试推导相应的生成式半监 
督学习算法. 


uci 数据集见 13.4 


http://archive.ics.uci.edu/ml/. 


从网上下载或自己编程实现 TSVM 算法,选择两个 UCI 数据集,将其 
中30%的样例用作测试样本，10%的样例用作有标记样本，60%的样 
例用作无标记样本，分别训练出利用无标记样本的 TSVM 以及仅利 
用有标记样本的 SVM ， 并比较其性能. 


13.5 对未标记样本进行标记指派与调整的过程中有可能出现类别不平衡 
问题，试给出考虑该问题后的改进 TSVM 算法. 

13.6* TSVM 对未标记样本进行标记指派与调整的过程涉及很大的计算开 
销，试设计一个高效的改进算法. 


13.7* 试设计一个能对新样本进行分类的图半监督学习方法. 


13.8 自训练 ( self - training ) 是一种比较原始的半监督学习方法：它先在有标 

记样本上学习，然后用学得分类器对未标记样本进行判别以获得其伪 
标记，再在有标记与伪标记样本的合集上重新训练，如此反复.试析该 
方法有何缺陷. 

13.9* 给定一个数据集，假设其属性集包含两个视图，但事先并不知道哪些 
属性属于哪个视图，试设计一个算法将这两个视图分离出来. 

13.10 试为图 13.7 算法的第10行写出违约检测算法1用于检测是否有约束 
未被满足). 
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小 故事： 流形与伯恩哈德•黎曼 

“ 流形 ” （ manifold) 这个名字源于德语 Mannig- 
faltigkeit, 是伟大的德国数学家伯恩哈德 • 黎曼 (Bernhard 
Riemann, 1826 一 1866) 提出的，其译名则是我国拓扑学奠 
基人江泽涵先生借鉴文天祥《正气歌》 “ 天地有正气，杂然 
赋流形 ” 而来，可能是由于光滑流形恰与 “ 气 ” 相似，整体 
上看可流动、变形 . 



传统的德国大李中一个 
系只有一位“教授”，相 
当于系主任.高斯长期担 
任哥廷根大学数学教授, 
1855年他去世后由狄利克 
雷接任. 


7个千禧年数学难题中, 
已被证明的“庞加莱猜 
想”直接与流形有关：任 
何一个单连通、闭的三维 
流形一定同胚于一个三维 
球面. 


黎曼出生于德国汉诺威的布列斯伦茨 (Breselenz ), 幼年时就展现出惊人的 
数学天赋 .1846 年父亲送他到哥廷根大学攻读神学，在旁听了高斯关于最小二 
乘法的讲座后，他决定转攻数学，并在高斯指导下于 1851 年获博士学位.期间 
有两年他在柏林大学学习，受到了雅可比、狄利克雷等大数学家的影响 .1853 
年，高斯让黎曼在几何学基础方面准备一个报告，以便取得哥廷根大学的 教职 ; 
1854 年，黎曼做了 “ 论作为几何基础的假设 ” 的著名演讲，这个报告开创了黎 
曼几何，提出了黎曼积分，并首次使用了 Mannigfaltigkeit 这个词.此后黎曼一 
直在哥廷根大学任教，并在 1859 年接替去世的狄利克雷担任数学教授 . 

黎曼是黎曼几何的创立者、复变函数论的奠基人，并对微积分、解析数 
论、组合拓扑、代数几何、数学物理方法均做出了开创性贡献，他的工作直接 
影响了近百年数学的发展，许多杰出的数学家前赴后继地努力论证黎曼断言过 
的定理 .1900 年希尔伯特列出的 23 个世纪数学问题与 2000 年美国克雷数学研 
究所列出的 7 个千禧年数学难题中，有一个问题是相同的，这就是黎曼 1859 年 
因当选院士而提交给柏林科学院的文章中提出的 “ 黎曼猜想”.这是关于黎曼 
C 函数非平凡零点的猜想.目前已有不同数学分支的千佘个数学命题以黎曼猜 
想为前提，若黎曼猜想正确，它们将全部升格为定理.一个猜想联系了如此多不 
同数学分支、如此多命题，在数学史上是极为罕见的，因此它被公认为当前最 
重要的数学难题 . 
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基于学习器进行预测， 
例如相^据纹理、颜色、根 
蒂等信息判断一个瓜是否 
为好瓜就是在做推断；但 
推断远超出预测范畴，例 
如在吃到一个不见根蒂的 
好瓜时，“由果溯因”逆 
推其根蒂的状态也是推断. 


若变量间存在显式的因 
果关系，则常使用贝叶斯 
网； 若变量间存在相关性， 
但难以获得显式的因果关 
系，则常使用马尔可夫网. 


静态贝叶斯网参见 7.5 

节. 


14.1 隐马尔可夫模型 

机器学习最重要的任务，是根据一些已观察到的证据 ( 例如训练样本)来 
对感兴趣的未知变量 ( 柄如类别标记 ) 进行估计和推测 . 概率模型 (probabilistic 
model) 提供了一种描述框架，将学习任务归结于计算变量的概率分布.在概 
率模型中，利用已知变量推测未知变量的分布称为 “ 推断 ” （ inference )， 其 
核心是如何基于可观测变量推测出未知变量的条件分布 . 具体来说，假定所 
关心的变量集合为 F ， 可观测变量集合为其他变量的集合为丑，“生成 
式 ” （ generative) 模型考虑联合分布丑 , (9), “ 判别式 ” （ discriminative ) 模 
型考虑条件分布 ■ ，丑 | O). 给定一组观测变量值，推断就是要由 P(y, R, O) 
或 P(y, R | O) 得到条件概率分布 P(Y | O). 

直接利用概率求和规则消去 变量丑 显然不可行，因为即便每个变量仅有两 
种取值 的简单 问题，其复杂度已至少是 0(2 l y W 〃 l ) . 另一方面,属性变量之间往 
往存在复杂的联系，因此概率模型的学习，即基于训练样本来估计变量分布的 
参数往往相当困难 . 为了便于研究高效的推断和学习算法，需有一套能简洁紧 
凑地表达变量间关系的工具 . 

概率图模型 (probabilistic graphical model ) 是一类用图来表达变量相关关 
系的概率模型 . 它以图为表示工具，最常见的是用一个结点表示一个或一组 
随机变量，结点之间的边表示变量间的概率相关关系，即 “ 变量关系图”.根 
据边的性质不同，概率图模型可大致分为 两类： 第一类是使用有向无环图表 
示变量间的依赖关系，称为有向图模型或贝叶斯网 (Bayesian network ); 第二类 
是使用无向图表示变量间的相关关系，称为无向图模型或马尔可夫网 (Markov 
network). 

隐马尔可夫模型 (Hidden Markov Model ， 简称 HMM ) 是结构最简单的动态 
贝叶斯网 (dynamic Bayesian network), 这是一种著名的有向图模型，主要用于 
时序数据建模，在语音识别、自然语言处理等领域有广泛应用 . 

如图 14.1 所示，隐马尔可夫模型中的变量可分为两组.第一组是状态变量 
0/1 ， 2/2，. .. ，％ } ，其中％ G ； V 表示第 f 时刻的系统状态.通常假定状态变量是隐 
藏的、不可被观测的，因此状态变量亦称隐变量 (hidden variable ). 第二组是观 
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@ (^)… （3 

, 图 14.1 隐马尔可夫模型的图结构 

测变量 { x 1 , X 2,..., X n }, 其中而 G Y 表示第 f 时刻的观测值.在隐马尔可夫模 
型中，系统通常在多个状态 { Sl ， S 2”..， S N } 之间转换，因此状态变量％的取值 
范围;V (称为状态空间)通常是有 iV 个可能取值的离散空间.观测变量叫可以 
是离散型也可以是连续型，为便于讨论，我们仅考虑离散型观测变量，并假定其 
取值范围 Y 为 {o l5 02,… ， Om}. 

图 14.1 中的箭头表示了变量间的依赖关系.在任一时刻，观测变量的取值 
仅依赖于状态变量，即 A 由 W 确定，与其他状态变量及观测变量的取值无关. 
同时， t 时刻的状态 yt 仅依赖于 f - 1时刻的状态 y t - u 与其余 n -2 个状态无 
关.这就是所谓的 “ 马尔可夫链” (Markov chain), BP： 系统下一时刻的状态仅 
所 i 胃“现在决定未 来”. 由当前状态决定，不依赖于以往的任何状态.基于这种依赖关系，所有变量的联 

合概率分布为 

• n 

尸(工 1, 2/1， .. . ， Vn) = P ( y 1 ) P ( x 1 I yi ) Y [ P(yi I yi - i ) P{xi | yi ) . (14.1) 

i =2 

除了结构信息，欲确定一个隐马尔可夫模型还需以下三组参数： 

• 状态转移 概率： 模型在各个状态间转换的概率，通常记为矩阵 A = 
[ay]ivxiv， 其中 

dij = P(yt+i = Sj I y t = si) , 1 ^ i,j ^ N, 

表示在任意时刻 t， 若状 态为％ 则在下一时刻状态为 ~ 的概率. 

• 输出观测 概率： 模型根据当前状态获得各个观测值的概率，通常记为矩阵 
B — [ bij ] NxMi 其中 

'bij = P{p^t = Oj Vt ~ ^ i ) 5 M 

表示在任意时刻 t, 若状态为％则观测值％被获取的概率. 

• 初始状态概率：模型在初始时刻各状态出现的概率，通常记为 7T = 
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/ X • .H. * | f , 

( TTh ?^，...，?^), 具中 

7 Ti = P(yi = Si ), 1 ^ i ^ N 
表示模型的初始状态为&的概率. 

通过指定状态空间 y 、 观测空间 I 和上述三组参数，就能确定一个隐马尔 
可夫模型，通常用其参数 A = [ A , B ,7 T ] 来指代.给定隐马尔可夫模型 A ， 它按如 
下过程产生观测序列{町，吻， ...， x n }: 

(1) 设置 t = 1，并根据初始状态概率 7 T 选择初始状态％; 

(2) 根据状态％和输出观测概率 B 选择观测变量取值 

(3) 根据状态&和状态转移矩阵 A 转移模型状态，即确定 y t+1 ; 

(4) 若 t < n , 设置 t t + 1，并转到第（ 2 )步，否则停止.^ 

其中价€ { s ； L , S 2，...， Siv } 和 A 6 {0 i ,02,...,0 m } 分别为第 t 时刻的状态和观 
测值. 

在实际应用中，人们常关注隐马尔可夫模型的三个基本问题： 

•给定模型 A = [ A , B ,7 T ], 如何有效计算其产生观测序列 X = 
{ x u x 2 ,..., x n } 的概率 P(x I A )? 换言之，如何评估模型与观测序列 
之间的匹配程度？ 

• 给定模型 A = [ A ， B , 7T] 和观测序列 X = { xi 1 X 2, • • - , Xn}^ 如何找到与此 
观测序列最匹配的状态序列 y = { 2 / 1 , 2 / 2 , ..., yn } ?换言之，如何根据观测 
序列推断出隐藏的模型状态？ 

• 给定观测序列 X = {町，的,...，〜}，如何调整模型参数 A = 使 

得该序列出现的概率 P(X I A ) 最大？换言之，如何训练模型使其能最好地 
描述观测数据？ 

上述问题在现实应用中非常重要.例如许多任务需根据以往的观测序列 
{ X \, X 2, • • . , X n _ i } 来推测当前时刻最有可能的观测值 X n , 这显然可转化为求取 
概率 | A )， 即上述第一个问题；在语音识别等任务中，观测值为语音信号， 
隐藏状态为文字，目标就是根据观测信号来推断最有可能的状态序列(即对应 
的文字)，即上述第二个 问题； 在大多数现实应用中，人工指定模型参数已变得 




越来越不可行，如何根据训练样本学得最优的模型参数，恰是上述第三个问题. 
值得庆幸的是，基于式 (14.1) 的条件独立性，隐马尔可夫模型的这三个问题均能 
被高效求解. 

14.2 马尔可夫随机场 

马尔可夫随机场 (Markov Random Field , 简称 MRF ) 是典型的马尔可夫网， 
这是一种著名的无向图模型.图中每个结点表示一个或一组变量，结点之间 
的边表示两个变量之间的依赖关系.马尔可夫随机场有一组势函数 (potential 
functions ), 亦称“因子” （ factor )， 这是定义在变量子集上的非负实函数，主要 
用于定义概率分布函数. 

图 14.2 显示出一个简单的马尔可夫随机场.对于图中结点的一个子集，若 
其中任意两结点间都有边连接，则称该结点子集为一个“团” ( clique ). 若在一 
个团中加入另外任何一个 结点都 不再形 成团， 则称该团为“极大团 ” （maximal 
clique ); 换言之，极大团就是不能被 其他团 所包含的团.例如，在图 14.2 中， 

{^1,^2}, {xi,Xs}, {^2,^5}, { 怎2，怎6 } ， {^3,^}, { 呢，抑 } 和 { 奶， $5, 仰 } 

都是团，并且除了 { x 2 , x 5 }, {抑,种}和 { x ^ x 6 } 之外都是极 大团； 但是，因为抑 
和 X 3 之间缺乏连接， 1x^X2, X 3 } 并不构 成团. 显然，每个结点至少出现在一个 
极大团中. 



在马尔可夫随机场中，多个变量之间的联合概率分布能基于团分解 
为多个因子的乘积，每个因子仅与一个团相关.具体来说，对于 n 个变量 
x = { xi , a ； 2 ,... , a ； n } 5 所有团构成的集合为 C , 与团 Q eC 对应的变量集合记为 
X Q ，则联合概率 PW 定义为 


P(x) 


Z 


n 




(14.2) 


其中为与团 Q 对应的势函数，用于对团 Q 中的变量关系进行建模 ， Z 
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参见 7.5.1 节. 


Ex U Qe c ^ q ( xq ) 为规范化因子，以确保 P ( x ) 是被正确定义的概率.在实际 
应用中，精确计算 Z 通常很困难，但许多任务往往并不需获得 Z 的精确值. 

显然，若变量个数较多，则团的数目将会很多(例如，所有相互连接的两个 
变量都会构成团)，这就意味着式 (14.2) 会有很多乘积项，显然会给计算带来负 
担.注意到若团 (3 不是极大团，则它必被一个极大团 (5* 所包含，即 Xg G Xg *; 
这意味着变量 X Q 2 间的关系不仅体现在势函数也？中，还体现在中.于 
是， 联合概率 P ( x ) 可基于极大团来定义.假定所有极大团构成的集合为 C *, 则 
有 

p ( x )n 初 ( x q ) ， （ i4 . 3 ) 

Q^C* 

其中 YlQeC * ^ q ( x q ) 为规范化因子.例如图 14.2 中 x = { xi , X 2 ,... , 
xq }, 联合概率分布 P ( x ) 定义为 

1 

P(X) = —-012(^1, ^2)^13(^1, ^3)^24(^2, ^4)^35(^3, ^5)^256^2, ^5, , 

其中，势函数 0256( X 2, $5, $6) 定义在极大团{奶,$5,仰}上，由于它的存在，使 
我们不再需为团 { X 2, X ^}, {$2,抑}和 {^5,^6} 构建势函数 • 

在马尔可夫随机场中如何得到“条件独立性”呢？同样借助“分离”的概 
念，如图 14.3 所示,若从结点集4中的结点到 J 5 中的结点都必须经过结点集 C 
中的结点，则称结点集 A 和5被结点集 C 分离, C 称为“分离集” （ s 印 amting 
set ). 对马尔可夫随机场，有 

• “全局马尔可夫性 ” （global Markov property ): 给定两个变量子集的分 
离集，则这两个变量子集条件独立. 

也就是说，图 14.3 中若令式 B 和 C 对应的变量集分别为和 x a , 则 
和 XjB 在给定 XC 7 的条件下独立，记为 XA 丄 I XC 7. 


C B 



图 14.3 结点集义和5被结点集 (7 分离 
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下面我们做一个简单的验证.为便于讨论，我们令图 14.3 中的 A ， B 和 C 
分别对应单变 量 XA ， 和:于是图 14.3 简化为图 14.4. 


(x^) - (x^) - ( J ) 


图 14.4 图 14.3 的筒化版 


对于图 14.4, 由式 (14.2) 可得联合概率 


丄 

P{^A^b,Xc) = ^Aci^Ai Xc)^Bc{xb, Xc) 

Zj 


基于条件概率的定义可得 


P{x A ,X B I X C ) 




P ( X A , X B , X C ) 


P{x A ,X B ,X C ) = 一 

P {^ c ) ~ Y , x f A P ( x % x f BJ x c ) 

^Aci^A, XC) 咕 BC(X B ， X C ) 

Y ， x f A E^ b ^ 咕 AC[X f A ， X C ) 咕 BC (X f B ， X C ) 

^AC(XA, X C ) 寸 BC(XB, X C ) 

. —■ 丨 "… • — I — 

^ac{x ! a ,xc) 寸 bc(x’ b ,x c Y 


(14.4) 


(14.5) 


P{x A I X C ) 


由式 (14.5) 和 (14.6) 可知 


P ( x A , x f B , x c ) 


P (^ A , Xc ) __ _ 

p ( x c) ~ Pix^x^xc) 

Y ， x f B Xc)^Bc{^B^ x c) 

J2x f A ^Ac{x f A , X C )^BC{X 1 B1 X C ) 
^ AC ( X A , X C ) 

J 2 x f A ^ Ac ( x f A , X C )' 


(14.6) 


P ( xa , x b I x c ) = P ( x A I x c ) P ( x B I xc ) 


即 a ; A 和邱 在给定 ZG 时条件独立. 


(14.7) 


由全局马尔可夫性可得到两个很有用的 推论： 

局部马尔可夫性 (local Markov property ): 给定某变量的邻接变量，则该 
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某变量的所有邻接变量 
组成的集合称为该变量的 
“马尔可夫毯 ” （Markov 
blanket ). 


条件随机场可看作给定 
观测值的马尔可夫随机场, 
也可看作对率回归的扩展; 
对率回归参见 3.3 节. 


变量条件独立于其他变量.形式化地说，令 F 为图的结点集， n ( v ) 为结点 
V 在图上的邻接结点， n *( v ) = n ( v ) U { v }, 有丄 ⑼ | x n ⑼. 

• 成对马尔可夫性 (pairwise Markov property ): 给定所有其他变量，两个非 
邻接变量条件独立.形式化地说，令图的结点集和边集分别为 V 和五，对 
图中的两个结点 W 和％若〈％ 4《五，则丄 Xu | 卜 


现在我们来考察马尔可夫随机场中的势函数.显然，势函数的作 
用是定量刻画变量集 X Q 中变量之间的相关关系，它应该是非负函数，且在所偏 
好的变量取值上有较大函数值.例如，假定图 14.4 中的变量均为二值变量，若 


势函数为 


^Ac{xa,Xc ) = 



1.5, 

0.1， 


if x A - x c ; 
otherwise , 


^bc{xb,x c ) 



0 . 2 , 

1.3, 


\{ Xb — Xc\ 
otherwise , 


则说明该模型偏好变量与拥有相同的取值，与 Ta 拥有不同的取值; 
换言之，在该模型中 以与 正相关，与叱负相关.结合式 (14.2) 易知，令 
以与叱相同且邱与叱不同的变量值指派将取得较高的联合概率. 

为了满足非负性，指数函数常被用于定义势函数，即 

她 0) 二 e - HQ ㈣ . (14.8) 

^g(xg) 是一个定义在变量上的实值函数，常见形式为 

丑 q ( xq ) = 〉:: ot uv x u x v - f - > : Pv 工 v ， (14.9) 

u,veQ^u^=v vEQ 

其中和 A 是参数.上式中的第二项仅考虑单结点，第一项则考虑每一对结 
点的关系. 


14.3 条件随机场 

条件随机场 (Conditional Random Field , 简称 CRF ) 是一种判别式无向图 
模型 .14.1 节提到过，生成式模型是直接对联合分布进行建模，而判别式模型则 
是对条件分布进行建模.前面介绍的隐马尔可夫模型和马尔可夫随机场都是生 
成式模型，而条件随机场则是判别式模型. 
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条件随机场试图对多个变量在给定观测值后的条件概率进行建模.具体来 
说，若令 X = {町，$2，…， Z n } 为观测序列， y = {yi, y2, … ， ？/n} 为与之相应 
的标记序列，则条件随机场的目标是构建条件概率模型 | X). 需注意的是， 
标记变量 y 可以是结构型变量，即其分量之间具有某种相关性.例如在自然语 
言处理的词性标注任务中，观测数据为语句(即单词序列)，标记为相应的词性序 
列，具有线性序列结构，如图 14.5 ⑷所示； 在语法分析任务中，输出标记则是语 
法树，具有树形结构，如图 14.5(b) 所示. 


y 



{y\ V 2 

Vs 

V4 V5 

2/6 } 

in] [N] 

[V] 

[P] [D] 

[N] 

{xi x 2 

^3 

X 4 X 5 

工 6} 

The boy knocked at the watermelon. 



The boy knocked at the watermelon. 


y 



(a) 词性标注 （b) 语法分析 

图 14.5 自然语言处理中的词性标注和语法分析任务 


令 G = { V , E ) 表示结点与标记变量 y 中元素一一对应的无向图，％表示 
与结点 r 对应的标记变量, n(v) 表示结点 u 的邻接结点，若图 G 的每个变量％ 
都满足马尔可夫性，即 

P{Vv | x,y nw ) = P ( y v I x，y +)) ， （14.10) 

则 (y,x) 构成一个条件随机场. 

理论上来说，图 G 可具有任意结构，只要能表示标记变量之间的条件独立 
性关系即可.但在现实应用中，尤其是对标记序列建模时，最常用的仍是图 14.6 
所示的链式结构，即“链式条件随机场” (chain-structured CRF). 下面我们主 
要讨论这种条件随机场. 



{^1 ^2 ... 


图 14.6 链式条件随机场的图结构 
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与马尔可夫随机场定义联合概率的方式类似，条件随机场使用势函数和图 
结构上的团来定义条件概率 | x ). 给定观测序列 x ， 图 14.6 所示的链式条 
件随机场主要包含两种关于标记变量的团，即单个标记变量以及相邻的标 
记变量选择合适的势函数，即可得到形如式 (14.2) 的条件概率定义. 
在条件随机场中，通过选用指数势函数并引入特征函数 (feature function ) ,条件 
概率被定义为 


n—l 


P(y I x ) = exp I 


( 汸 ,X ， 


2=1 


(14.11； 


其中 tjiyi + uyi ^ i ) 是定义在观测序列的两个相邻标记位置上的转移特征函 
数 (transition feature function ), 用于刻画相邻标记堯量之间的相关关系以及观 
测序列对它们的影响， s k ( y h ^ i ) 是定义在观测序列的标记位置 i 上的状态特征 
函数 (status feature function ), 用于刻画观测序列对标记变量的影响，和抑 
为参数， Z 为规范化因子，用于确保式 (14.11) 是正确定义的概率. 

显然，要使用条件随机场，还需定义合适的特征函数.特征函数通常是实值 
函数，以刻画数据的一些很可能成立或期望成立的经验特性.以图 14.5( a ) 的词 
性标注任务为例，若釆用转移特征函数 





if yi + i — [ P ], yi — [ V ] and Xi = “ knock ”; 
otherwise , 


则表示第 i 个观 测值巧 为单词 “ knock ” 时，相应的标记％和 挑 +1 很可能分别为 
和 P ]. 若采用状态特征函数 


I 1, if yi — [ V ] and Xi = “ knock ”； 
SkiVh^i) = < ^ 

I 0， otherwise , 

则表示观测值 A 为单词 “ knock ” 时，它所对应的标记很可能为 [ V ] 


对比式 (14.11) 和 (14.2) 可看出，条件随机场和马尔可夫随机场均使用团上 
的势函数定义概率，两者在形式上没有显著区别；但条件随机场处理的是条件 
概率，而马尔可夫随机场处理的是联合概率. 
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14.4 学习与推断 


基于 概率图模型定义的联合概率分布，我们能对目标变量的边际分 
布 Oarginal distribution ) 或以某些可观测变量为条件的条件分布进行推断.条 
件分布我们已经接触过很多，例如在隐马尔可夫模型中要估算观测序列 x 在给 
定参数 A 下的条件概率分布.边际分布则是指对无关变量求和或积分后得到结 


果，例如在马尔可夫网中，变量的联合分布被表示成极大团的势函数乘积，于 
是，给定参数 © 求解某个变量 z 的分布，就变成对联合分布中其他无关变量进 
行积分的过程，这称为“边际化” ( marginalization ). 


贝叶斯学派认为未知参 
数与其他变量一样，都是 
随机变量，因此参数估计 
和变量推断能统一在推断 
框架下进行.但频率主义 
学派对此并不认同. 


对概率图模型，还需确定具体分布的参数，这称为参数估计或参数学习问 
题，通常使用极大似然佶计或最大后验概率估计求解.但若将参数视为待推测 
的变量，则参数估计过程和推断十分相似，可以“吸收”到推断问题中.因此, 
下面我们只讨论概率图模型的推断方法. 

具体来说，假设图模型所对应的变量集 X = { xi , X 2, • • • 能分为邱和 

x F 两个不相交的变量集，推断问题的目标就是计算边际概率 P ( x F ) 或条件概 
率 P(xjp | x ^). 由条件概率定义有 


癱 



P(x F | X 五 ） = 


P ( x E , x F ) 


P ( x E , X F ) 

J2 xf p ( x e,x f ) 


(14.12) 


其中联合概率 P (^ e ^ f ) 可基于概率图模型获得， 因此， 推断问题的关键就是 
如何高效地计算边际分布，即 • 


: /^(X 五， Xj?) 


(14.13) 


概率图模型的推断方法大致可分为两类.第一类是精确推断方法，希望能 
计算出目标变量的边际分布或条件分布的精确值;遗憾的是， 一 情形下，此类 
算法的计算复杂度随着极大团规模的增长呈指数增长，适用范围有限.第二类 
是近似推断方法，希望在较低的时间复杂度下获得原问题的近 似解； 此类方法 
在现实任务中更常用.本节介绍两种代表性的精确推断方法，下一节介绍近似 
推断方法. 

14.4.1 变量消去 

精确推断的实质是一类动态规划算法，它利用图模型所描述的条件独立性 
来削减计算目标概率值所需的计算量.变量消去法是最直观的精确推断算法, 
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基于有向图模型所描述 
的条件独立性. 


也是构建其他精确推断算法的基础 . 1 

我们先以图 14.7(a) 中的有向图模型为例来介绍其工作流程. 



⑷贝叶斯网络结构 （ b ) 消息传递过程 

图 14.7 变量消去法及其对应的消息传递过程 

假定推断目标是计算边际概率 P &5). 显然，为了完成此目标，只需通过加 
法消去变量{別，0：2,3； 3 ,0；4},即 

作 5) = EEEE 作 1 , 3^2, $3, ^ 5 ) 

X4 X3 X2 XI 


= P ( x l) P ( x 2 I Xi)P{x 2> I X 2 )P(x 4 I X 3 )P(x 5 I Xs) . 

XA X 3 X 2 Xx 

(14.14) 

不难发现,若采用的顺序计算加法，则有 

^(^ 5 ) = I ^ 3 ) P ( X 4 I 尤 3) E P{^3 I X 2 ) ^ P(x 1 )P(x 2 \ ^l) 

Xs X4 X 2 x\ 

=^2 P ( x ^ I ^ 3 ) P( X 4 卜 3) ^2 P ( X3 I $2) m 12( 尤 2) , (14.15) 

X3 X4 X 2 

其中 rriijixj ) 是求加过程的中间结果，下标 f 表示此项是对&求加的结果，下 
标 j 表示此项中剩下的其他变量.显然，是关于％的函数.不断执行此 
过程可得 


P ( 邶 )=^2 P(x 5 I Xs) ^2 P ( X4 I ^3)^23(^ 3 ) 

X3 X4 

=y^P(x 5 I xs)m 2 s(xs)y^P(x 4: I xs) 

X3 X4 

= P(x 5 I X 3 )m23{x 3 )m4 3 (xs) 


=^ 35 (^ 5 ) - 


( 14 . 16 ) 
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亦称 Sum - Product 算法. 


• 显然，最后的 m 3 5( x 5 ) 是关于 x 5 的函数，仅与变量 X 5 的取值有关. 

事实上，上述方法对无向图模型同样适用.不妨忽略图 14.7( a ) 中的 箭头， 
将其看作一个无向图模型，有 

1 

P(x U X 2 ,Xs J X 4: ,Xs) = —^ 12 (^ 1 , X 2 )^23(X2, X 5 ) 5 

(14.17) 

其中 Z 为规范化因子.边际分布 P ( x 5 ) 可这样 计算： 

P ( X5 ) = ^ 5 (^ 3 , x 5 ) J 2 ^ 34 ( x3 , ^ 23 ( x2 , ^ 3)^2 ^ 2 ( x1 , x 2 ) 

X3 X4 X 2 Xl 

= ^35^3^5) ^4(x3, x 4 ) ^23(^2, X3)m 12 (x 2 ) 


=^ ^ 7135 ( x5 ) • (14.18) 

显然，通过利用乘法对加法的分配律，变量消去法把多个变量的积的求和 
问题，转化为对部分变量交替进行求积与求和的问题.这种转化使得每次的求 
和与求积运箅限制在局部，仅与部分变量有关，从而简化了计算. 

变量消去法有一个明显的 缺点： 若需计算多个边际分布，重复使用变量 
消去法将会造成大量的冗余计算.例如在图 14.7( a ) 的贝叶斯网上，假定在计 
算 P ( X 5) 之外还希望计算 P ( x 4 ), 若釆用 { xi , X 2 , X 5 l X 3 } 的顺序，则77^2(奶）和 
爪23(吻）的计算是重 复的. 

14.4.2 信念传播 

信念传播 (Belief Propagation ) 算法将变量消去法中的求和操作看作一个消 
息传递过程,较好地解决了求解多个边际分布时的重复计算问题.具体来说，变 
量消去法通过求和操作 

m iA x j ) = II m ki(xi) (14.19) 

k£n(i)\j 

消去变量其中 n ⑷表示 结点& 的邻接结点.在信念传播算法中，这个操作 
被看作从而向％传递了一个消息 rriij ( xj ). 这样，式 (1 A 1 5 ) 和 ( M .1 6 ) 所描述的 
变量消去过程就能描述为图 14.7( b ) 所示的消息传递过程.不难发现，每次消息 
传递操作仅与 变量％ 及其邻接结点直接相关，换言之，消息传递相关的计算被 
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限制在图的局部进行. 

在信念传播算法中，一个结点仅在接收到来自其他所有结点的消息后才能 
向另一个结点发送消息，且结点的边际分布正比于它所接收的消息的乘积，即 

P(xi) oc JJ m k i{xi) . (14.20) 

k£n(i) 

例如在图 14.7( b ) 中，结点 x 3 要向 x 5 发送消息，必须事先收到来自结点 x 2 和 
X4 的消息，且传递到; T 5 的消息爪35(耶）恰为概率 P ( x 5 ). 

若图结构中没有环，则信念传播算法经过两个步骤即可完成所有消息传递， 
进而能计算所有变量上的边际 分布： 

• 指定一个根结点，从所有叶结点开始向根结点传递消息，直到根结点收到 
所有邻接结点的消息； 

• 从根结点开始向叶结点传递消息，直到所有叶结点均收到消息. 

例如在图 14.7( a ) 中，令: n 为根结点，则&和耶为叶结点.以上两步消息 
传递的过程如图 14.8 所示.此时图的每条边上都有方向不同的两条消息，基于 
这些消息和式 (14.20) 即可获得所有变量的边际 概率. 



图 14.8 信念传播算法图示 

14.5 近似推断 

精确推断方法通常需要很大的计算开销，因此在现实应用中近似推断方法 
更为常用.近似推断方法大致可分为两 大类： 第一类是采样 ( sampling )， 通过使 
用随机化方法完成近似；第二类是使用确定性近似完成近似推断，典型代表为 
变分推断 (variational inference ). 

14.5.1 MCMC 采样 

在很多任务中，我们关心某些概率分布并非因为对这些概率分布本身感兴 
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若 r 是离散变量，则把 
积分换做求和即可. 


.或 p ( x ) 的相关分布. 


趣，而是要基于它们计算某些期望，并且还可能进一步基于这些期望做出决策. 
例如对图 14.7( a ) 的贝叶斯网，进行推断的目的可能是为了计算变量耶的期望. 
若直接计算或逼近这个期望比推断概率分布更容易，则直接操作无疑将使推断 
问题的求解更为高效. 

采样法正是基于这个思路.具体来说，假定我们的目标是计算函数在 
概率密度函数 p ( x ) 下的期望 

E p [/] = J f(x)p(x)dx , (14.21) 

则可根据 P ( X ) 抽取一组样本 { xi , X 2, . . . 然后计算 f ( x ) 在这些样本上的 

均值 

^ 1 N 

/ ~ ^ ， (14.22) 

1=1 

以此来近似目标期望 E [/]. 若样本 { xi , X2 , .. • ,^ at } 独立，基于大数定律，这种 
通过大量采样的办法就能获得较高的近似精度.问题的关键是如何釆样.对概 
率图模型来说，就是如何高效地基于图模型所描述的概率分布来获取样本. 

概率图模型中最常用的釆样技术是马尔可夫链蒙特卡罗 (Markov Chain 
Monte Carlo , 简称 MCMC ) 方法.给定连续变量 x G X 的概率密度函数 p ( x ), 


(14.23) 


(14.24) 

若 r 不是单变量而是一个高维多元变量 x ， 且服从一个非常复杂的分布，则对 
式 (14.24；) 求积分通常很困难.为此， MCMC 先构造出服从 p 分布的独立同分布 
随机变量 xi , x 2 , … ， Xiv , 再得到式 ( I 4 . 24 ) 的无偏估计 

P(f) ^ /(〜）. （14.25) 

i=l 

然而，若概率密度函数 p ( x ) 很复杂，则构造服从 P 分布的独立同分布样本 


^在区间 A 中的概率可计算为 


P ( A ) = / p ( x)dx 

/ f A 


若有函数 f:X 


则可计算 f ( x ) 的期望 


p ( f ) = E P [ f ( X )] = / f ( x ) p ( x)dx 


X 
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Metropolis-Hastings 算 
法是由 N. Metropolis 等人 
1953 年提出 [Metropolis 
et al., 1953] , 此后 W. K. 
Hastings 将其推广到一般 
形式 [Hastings, 1970], 因 
此而得名. 


重复足够多次以达到平 
稳分布. 


根据式 (14.28). 


实践中常会丢弃前面若 

干个样本，因为达到平稳 
分布后产生的才是希望得 
到鉤样本. 


也很困难. MCMC 方法的关键就在于通过构造“平稳分布为 p 的马尔可夫链” 
来产生样本：若马尔可夫链运行时间足够长(即收敛到平稳状态)，则此时产出 
的样本 x 近似服从于分布 p . 如何判断马尔可夫链到达平稳状态呢？假定平稳 
马尔可夫链: T 的状态转移概率(即从状态 x 转移到状态/的概率)为 T ( x r | x ) 5 
t 时刻状态的分布为则若在某个时刻马尔可夫链满足平稳条件 

p(x t )T('x t ~ 1 | x^) ~p(x t_1 )T(x i I x t_1 ), (14.26) 

则是该马尔可夫链的平稳分布，且马尔可夫链在满足该条件时已收敛到平 
稳 状态. 

也就是说, MCMC 方法先设法构造一条马尔可夫链，使其收敛至平稳分布 
恰为待估计参数的后验分布，然后通过这条马尔可夫链来产生符合后验分布的 
样本，并基于这些样本来进行估计.这里马尔可夫链转移概率的构造至关重要， 
不同的构造方法将产生不同的 MCMC 算法. 

Metropolis-Hastings (简称 MH) 算法是 MCMC 的重要代表.它基于“拒 
绝采样” (reject sampling) 来逼近平稳分布 p. 如图 14.9 所示，算法每次根 
据上一轮采样结果 x ^ 1 来采样获得候选状态样本 x *， 但这个候选样本会以 
一定的概率被“拒绝”掉.假定从状态 x ^ 1 到状态 x * 的转移概率为 Q ( x * | 
x t - 1 ) A ( x * I x ^ 1 ), 其中 Q ( x * I x ^ 1 ) 是用户给定的先验概率， A ( x * I xf i ) 是 
x* 被接受的概率.若 x* 最终收敛到平稳状态，则根据式 (14.26) 有 

p(x t_1 )(5(x* I x t-1 )A(x* I x t_1 ) =p(x*)Q(x t_1 I x*)A(x t_1 I X*) , (14.27) 


输入： 先验概率 
过程： 

初始化 x Q ; 
for t =i 1 2，•… do 

根据 Q ( x * I x t _1 ) 采样出候选样本 x *; 

根据均勻分布从⑼ 1) 范围内采样 出阈值 ^ 
if 彡 _A(x* | x t_1 ) then 


2 

3 

4 

5 

6 

7 

8 
9 

10 

11 


『氺 


else 

t 

end if 
end for 
return > 


x 1 ' 


.1 v 2 
• Mclk. 


输出： 采样出的一个样本序列 x ^ x 2 ，. 


图 14.9 Metropolis-Hastings 算法 
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参见 7.5.3 节 . 


于是，为了达到平稳状态，只需将接受率设置为 


A(x* 



= min 



p(x*)Q(x 卜 1 丨 x *) 、 

p(x t_1 )Q(x* I x t_1 ) J 


(14.28) 


吉布斯采样 (Gibbs sampling) 有时被视为 MH 算法的特例，它也使用马尔 
可夫链获取样本，而该马尔可夫链的平稳分布也是采样的目标分布 〆 x ). 具体 
来说，假定：^= { x ly X 2 , . . 目标分布为 p ( X )， 在初始化 X 的取值后，通过 

循环执行以下步骤来完成釆样： 


(1) 随机或以某个次序选取某变量 


(2) 根据 x 中除而外的变量的现有取值，计算条件概率 p(A I x 7 )， 其中 

X; = {$1 ， $2， . • . ， ^i—li 工 i+1 ， • • . ， *^iv} 5 


(3) 根据丨对变量叫采样，用采样值代替原值. 


14.5.2 变分推断 

变分推断通过使用已知简单分布来逼近需推断的复杂分布，并通过限制近 
似分布的类型，从而得到一种局部最优、但具有确定解的近似后验分布. 

在学习变分推断之前，我们先介绍概率图模型一种简洁的表示方法 —— 盘 
式记法 (plate notation) [Buntine, I 994 ] •图 14.10 给出 了一个简单的例子. 
图 14.10 ⑷表示 iV 个变量 { Xl , X2 ^.., x N } 均依赖于其他变量 z. 在图 
14.10(b) 中，相互独立的、由相同机制生成的多个变量被放在一个方框(盘)内, 
并在方框中标出类似变量重复出现的个数 iV ; 方框可以嵌套.通常用阴影标注 
出已知的、能观察到的变量，如图 14.10 中的变量^在很多学习任务中，对属 
性变量使用盘式记法将使得图表示非常简洁. 

(a ) 普通变量关系图 


© 



(b ) 盘式记法 


图 14.10 盘式记法的例示 
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变分推断使用的近似分 
布需具有良好的数值性质, 
通常是基于连续型变量的 
概率密度函数来刻画的. 


EM 算法参见 7.6 节. 


KL 散度，参见附录 C .3. 


在图 14.10( b ) 中，所有能观察到的变量^的联合分布的概率密度函数是 


(14.29) 


(14.30) 


一 般来说，图 14.10 所对应的推断和学习任务主要是由观察到的变量 x 来 
估计隐变量 z 和分布参数变量 ©， 即求解 p(z | X ， ㊀ ）和 a 

概率模型的参数估计通常以最大化对数似然函数为手段.对式 (14.30) 可使 
用 EM 算法： 在 E 步，根据 t 时刻的参数 矽对 〆 z | X ， 印）进行推断，并计算联 
合似然函数 p ( x，z | ©); 在 M 步，基于 E 步的结果进行最大化寻优，即对关于变 
量0的函数 2(0; ©') 进行最大化从而求取 

© t+1 二 arg max Q ( ㊀ ;©艺） 

© 

= arg max p(z | x , 0*) lnp ( x , z | ©) . (14.31) 


p(x I ©)= nE p{xi,z I 0), 

i=l z 

所对应的对数似然函数为 

N ( 

lnp(x I 0) = p{Xi,Z I 0) 

i=l I z 

其中 X = { X !, X 2 , . • © 是 X 与 Z 服从的分布参数. 


式 ( M .31) 中的 2(0;0^) 实际上是对数联合似然函数 lnp ( x，z I㊀ ）在分布 
p(z I X, oi ) 下的期望，当分布 p(z I X, 0^与变量 Z 的真实后验分布相等时， 
2(0; 0') 近似于对数似然函数.于是， EM 算法最终可获得稳定的参数 ©, 而隐 
变量 z 的分布也能通过该参数获得. 


需注意的是， | x ,0') 未必是隐变量 z 服从的真实分布，而只是一个近 
似分布.若将这个近似分布用表示，则不难验证 


其中 


lnp ( x ) = £(q)-hKL(q || p ), 

^(q) = J g(z)ln{ K }dz ， 
k Hq \\v) = - J g(z) In P (=) X ) dz • 


(14.32) 


(14.33) 

(14.34) 
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为简化表述，这里将 
Qi(zi) 简写为 qi. 


const 是一个常数. 


然而在现实任务中， E 步对 p(z | x ,©') 的推断很可能因 z 模 型复杂 而难以 
进行，此时可借助变分推断.通常假设 z 服从分布 

M 

q ( z ) = Y [ qi ( zi ), (14.35) 

i=l 


即假设复杂的多变量 Z 可拆解为一系列相互独立的多变量更重要的是， 
可以令的分布相对简单或有很好的结构，例如假设奶为指数族 (exponential 
family ) 分布，此时有 





qi S lnp ( x ， z ) - > dz 




qj lnp ( x , Zj)dzj — qj Inqjdzj + const ， 


其中 


lnp ( x , Zj ) = [ lnp ( x , z )] + const ， 
E ^- [ lnp ( x , z )] = / lnp ( x , z ) . 

J • / • 


(14.36) 


(14.37) 

(14.38) 


我们关心的是％，因此可固定•再对进行最大化，可发现 
式 (14.36) 等于 -KL (qj || p ( x , Zj )) ? 即当 ％ = 多 ( x , z )) 时 C { q ) 最大.于是可 
知变量子集％所服从的最优分布@应满足 


In 名 (Zj) = E 的 [ lnp ( x , z )] + const , 


(14.39) 


即 


Qj ( z j ) 


ex - p ( Ej^j [ lnp ( x ， z )]) 
f exp (Ew [lnp ( x ， z )] )dzj 


14.40、 


换言之，在式 (14.35) 这个假设下，变量子集 Zj 最接近真实情形的分布由 
式 (1440) 给出. 

显然，基于式 (14.35) 的假设，通过恰当地分割独立变量子集并选择％服 
从的分布, E^j [ lnp ( x , z )] 往往有闭式解，这使得基于式 (14.40) 能高效地对隐变 
量 z 进行推断.事实上，由式 (14.38) 可看出，对变量~分布进行估计时融合 





14.6 话题模型 
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mean 指期望， field 则是 
指分布. 


例如若把图像中的小块 
看作“词”，则可将图像 
表示为词袋，于是话题模 
型也可用于图像数据. 


通常需对词频做一些 
处理，例如去除“停用词 
表”中的词等. 


狄利克雷分布参见附录 

C.I.6. 


了 Zj 之外的其他的信息，这是通过联合似然函数 lnp ( x , z) 在 Zj 之外的隐 
变量分布上求期望得到的，因此亦称“平均场 ” （mean field ) 方法. 

在实践中使用变分法时，最重要的是考虑如何对隐变量进行拆解，以及假 
设各变量子集服从何种分布，在此基础上套用式 (14.40) 的结论再结合 EM 算法 
即可进行概率图模型的推断和参数估计.显然，若隐变量的拆解或变量子集的 
分布假设不当，将会导致变分法效率低、效果差. 

14.6 话题模型 

话题模型 (topic model ) 是一族生成式有向图模型，主要用于处理离散型的 
数据(如文本集合)，在信息检索、自然语言处理等领域有广泛应用.隐狄利克 
雷分配模型 (Latent Dirichlet Allocation , 简称 LDA ) 是话题模型的典型代表. 

我们先来了解一下话题模型中的几个概念：词 ( word )、 文档 ( document ) 和 
话题 ( topic ). 具体来说，“词”是待处理数据的基本离散单元，例如在文本处理 
任务中 ，一 个词就是一个英文单词或有独立意义的中文词.“文档”是待处理 
的数据对象，它由一组词组成，这些词在文档中是不计顺序的，例如一篇论文、 
一 个网页都可看作一个 文档； 这样的表示方式称为“词袋” （ bag - of - words ). 数 
据对象只要能用词袋描述，就可使用话题模型.“话题”表示一个概念，具体表 
示为一系列相关的词，以及它们在该概念下出现的概率. 

形象地说，如图 14.11 所示，一个话题就像是一个箱子，里面装着在这 
个概念下出现概率较高的那些词.不妨假定数据集中一共包含 K 个话题 
和: T 篇文档，文档中的词来自一个包含 7 V 个词的词典.我们用 T 个 7 V 维 
向量 W = 表示数据集(即文档集合)， K 个 7 V 维向量此 

(k = l ,2,..., K ) 表示话题，其中斯 G 的第 n 个分量表示文档 f 中词 
n 的词频 , A G 趿〃的第 n 个分量仇， n 表示话题 A ; 中词 n 的词频. 

在现实任务中可通过统计文档中出现的词来获得词频向量吻 （i = 
但通常并不知道这组文档谈论了哪些话题，也不知道每篇文档与哪 
些话题有关. LDA 从生成式模型的角度来看待文档和话题.具体来说， LDA 认 
为每篇文档包含多个话题，不妨用向量表示文档 t 中所包含的每个话 
题的比例，即表示文档 t 中包含话题 A : 的比例，进而通过下面的步骤由话 
题“生成”文档 

(1) 根据参数为 a 的狄利克雷分布随机釆样一个话题分布 

(2) 按如下步骤生成文档中的 TV 个词： 
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话题 


文档 


秦淮河 0.04 


舱前 0.02 


歌声 0.04 


字画 0.02 

西湖 0.01 


舱 □ 0.02 


胡琴 0.02 


II 镂 0.01 

瘦西湖 0.01 


甲板 0.01 


调子 0.02 


灯彩 0.01 













浆声灯影里的秦淮河 

作者：朱自清 


一九二三年八月的一晚，我和平 
伯同游秦淮河；平伯是初泛，我是重 
来了。我们雇了一只“七板子”，在 
夕阳已去，皎月方来的时候，便下了 
船。于是桨声汩——汩，我们开始领 
略那晃荡着薔藏色的历史 
滋味了， 

秦淮訶里的船，比北京万姓园， 
颐和园的船好，比西湖的船好，比杨 
州瘦西湖始也这儿处的船不是 
觉着笨，就, 

能引起乘客们的情韵，如秦淮河的船 
一样。秦淮河的船约略可分为两种： 
一是大船；一是小船，就足所谓"七 
板子”。大船_闽大,可容二三十 
人。里面陈设着字 画光 沾的 红木客 
具> 桌上一律嵌着冰凉的大评石而， 


窗格雕镂颇细，使人起柔腻之感。窗 
格里映着红色蓝色的玻璃；玻璃上有 
精致的花纹 “七 爸二 
规模虽不及大 

，足系人情思。出色 
处却在它的 舱前 ^ 舱前是 甲 板上的 一 
邹。上面有孤形的 
f 兰干1着。里面通常放着两张藤的躺 
涛。躺下，可以谈天，可以望远，可 
以顾盼两岸的河房。大船上也巧 
便在小船上更觉清只罢了。 舱谕 的顶 
iWT ? i -) 的多少，明暗， 

彩苏的精粗 

歹总还你一个灯彩。这灯彩实在是最 
能构人的东西。夜取垂垂地下来时， 


话题分布 


话题指派 

图 14.11 LDA 的文档生成过程示意图 


( a ) 根据呔进行话题指派，得到文档 t 中词 n 的话题' n ; 

( b ) 根据指派的话题所对应的词频分布随机釆样生成词. 


图 14.11 演示出根据以上步骤生成文档的过程.显然，这样生成的文档自 
然地以不同比例包含多个话题（步骤1)，文档中的每个词来自一个话题（步骤 
2 b ), 而这个话题是依据话题比例产生的（步骤 2 a ). 

图 14.12 描述了 LDA 的变量关系，其中文档中的词频吻 ， n 是唯一的已观 
测变量，它依赖于对这个词进行的话题指派 & n , 以及话题所对应的词频同 
时，话题 指派& n 依赖于话题分布咏，咏依赖于狄利克雷分布的参数％而话 
题词频则依赖于参数 ry . 



于是, LDA 模型对应的概率分布为 
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参见附录 C.I.5. 

训练文档集对应的词频. 


p ( W ， z ，/3，0 I a ，”） = 

T K / N \ 

n^( 0i I a ) Ylpif^k I »7) n P ( W ^n I Z t , n ， Pk)JP(Z t ， n I 0t) j ， （14.41) 

t=l i=l \n=l } 

其中 P (㊀ i I a ) 和 p(/3 k I 77 ) 通常分别设置为以 a 和 ? 7 为参数的 K 维和 TV 维狄 
利克雷分布 5 例如 

I «) = 器 : :)) D[ 1 ， （ 14 . 42 ) 

其中 r ㈠ 是 Gamma 函数.显然， o ： 和 r / 是模型式 (14.41) 中待确定的参数. 

给定训练数据界= {wi,w 2) .. • 5 ^ t} 5 LDA 的模型参数可通过极大似然 
法 估计， 即寻找《和77以最大化对数似然 


T 

LL ( a ， 77 ) = p(w t I a , 77 ) . (14.43) 

t=i 

但由于 I a , 77 ) 不易计算，式 (14.43) 难以直接求解，因此实践中常采用变分 
法来求取近似解. 

若模型己知，即参数 Q ： 和77已确定，则根据词频来推断文档集所对应 
的话题结构(即推断 0 t ， 和 Z t ， n ) 可通过求解 

靜 I ⑽) ， 轉) 

然而由于分母上的 p ( W | a,rj) 难以获取，式 (14.44) 难以直接求解，因此在实践 
中常采用吉布斯采样或变分法进行近似推断. 


14.7 阅读材料 

概率图模型方面已经有专门的书籍如 [Roller and Friedman , 2009]. 

[ Pearl , 1982] 倡导了贝叶斯网的研究， [ Pearl , 1988] 对这方面的早期研究工 
作进行了总结.马尔可夫随机场由 [Geman and Geman , 1984] 提出.现实应用 
中使用的模型经常是贝叶斯网与马尔可夫随机场的结合.隐马尔可夫模型及 
其在语音识别中的应用可参阅 [ Rabiner , 1989]. 条件随机场由 [Lafferty et al ., 
2001] 提出，更多的内容可参阅 [Sutton and McCallum , 2012]. 




340 


第 14 章概率图模型 


信念传播算法最早由 [ Pearl , 1986] 作为精确推断技术提出，后来衍生出 
多种近似推断算法.对一般的带环图，信念传播算法需在初始化、消息传递 
等环节进行调整，由此形成了迭代信念传播算法 (Loopy Belief Propagation ) 
[Murphy et al ., 1999], 但其理论性质尚不清楚，这方面的进展可参阅 [Mooij 
and Kappen , 2007; Weiss , 2000]. 有些带环图可先用“因子图 ” （factor graph ) 
[Kschischang et al ., 2001] 描述，再转化为因子树 (factor tree ) 进行信念传播.对 
任意图结构的信念传播已有一些研究 [Lauritzen and Spiegelhalter , 1988]. 近来 
随着并行计算技术的发展，信念传播的并行加速实现受到关注，例如 [Gonzalez 
et al , 2009] 提出 r e 近似推断的概念并设计出多核并行信念传播算法,其时间 
开销随内核数的增加而线性 降低. 

概率图模型的建模和推断，尤其是变分推断在20世纪90年代中期逐步发 
展成熟， [ Jordan , 1998] 对这个阶段的主要成果进行了总结.关于变分推断的更 
多内容可参阅 [Wainwright and Jordan , 2008]. 


图模型带来的一大好处是使得人们能直观、快速地针对具体任务定义模 


“非参数化”指参数的 
数目无须事先指定，是贝 
叶斯学习方法的重要发展. 

贝叶斯学习参见 p .164. 


LSA 是 SVD 在文本数据 
上的变体. 

参见 p .266. 


型 . LDA [Blei et al , 2003] 是这方面的重要代表，由它产生了很多变体，关于这 
方面的内容可参阅 [ Blei , 2012]. 概率图模型的一个发展方向是使得模型的结构 
能对数据有一定的自适应能力，即“非参数化” ( non - parametric ) 方法,例如层 
次化狄利克雷过程模型 [Teh et al ., 2006] > 无限隐特征模型 [Ghahramani and 
Griffiths , 2006] 等. 

话题模型包含了多种模型，其中有些并不采用贝叶斯学习方法，例如 PLSA 
(概率隐语义分析） [ Hofmann , 2001], 它是 LSA (隐语义分析）的概率扩展. 

蒙特卡罗方法是二十世纪四十年代产生的一类基于概率统计理论、使用 
随机数来解决问题的数值计算方法， MCMC 是马尔可夫链与蒙特卡罗方法的 
结合，最早由 [ Pearl ，1987] 引入贝叶斯网推断.关于 MCMC 在概率推断中的应 
用可参阅 [ Neal , 1993], 更多关于 MCMC 的内容可参阅 [Andrieu et al ., 2003; 
Gilks et al ., 1996]. 





14.1 试用盘式记法表示条件随机场和朴素贝叶斯分类器. 

14.2 试证明图模型中的局部马尔可 夫性： 给定某变量的邻接变量，则该变 
量条件独立于其他变量. 

14.3 试证明图模型中的成对马尔可夫性：给定其他所有 变量， 则两个非邻 
接变量条件独立. 

14.4 试述在马尔可夫随机场中为何仅需对极大团定义势函数. 

14.5 比较条件随机场和对率回归，试析其异同. 

14.6 试证明变量消去法的计算复杂度随图模型中极大团规模的增长而呈 
指数增长，但随结点数的增长未必呈指数增长. 

14.7 吉布斯采样可看作 MH 算法的特例，但吉布斯采样中未使用“拒绝釆 
样”策略，试述这样做的好处. 

14.8 平均场是一种近似推断方法.考虑式 (14.32), 试析平均场方法求解的 
近似问题与原问题的差异，以及实践中如何选择变量服从的先验分布. 

14.9* 从网上下载或自己编程实现 LDA ， 试分析金庸作品《天龙八部》中 
每十回的话题演变 情况. 

14.10* 试设计一个无须事先指定话题数目的 LDA 改进算法. 
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参阅 1.5 节. 


艾伦 • 纽厄尔奖是奖 
励那些拓宽了计算机科学, 
或架设了计算机科学与其 
他学科桥梁的卓越科学 
家，该奖以图灵奖得主、 
人工智 能先驱 Allen Newell 
(1 927 -1" 2 )命名.机器 
学习界的另一位著名学者 
Michael Jordan 在2009年 
获该奖. 


小故事：概率图模型奠基人朱迪亚•珀尔 

说起概率图模型，就必然要谈到犹太裔美国计算机科学 
家朱迪亚 • 珀尔 (Judea Pearl , 1936—）.珀尔出生于特拉 
维夫，1960年他在以色列理工学院电子工程本科毕业后来 
到美国，在 Rutgers 大学和布鲁克林理工学院分别获得物理 
学硕士和电子工程博士学位.1965年博士毕业后进入 RCA 
研究实验室从事超导存储方面的工作，1970年到加州大学洛杉矶分校任教 
至今 • 

早期的主流人工智能研究专注于以逻辑为基础来进行形式化和推理，但这 
样很难定量地对不确定性事件进行表达和处理.珀尔在二十世纪七十年代将概 
率方法引入人工智能，开创了贝叶斯网的研究，提出了信念传播算法，催生了概 
率图模型这一大类技术，他还以贝叶斯网为工具开创了因果推理方面的研究. 
由于对人工智能中概率与因果推理的重大贡献，他获得2011年图灵奖,此前他 
已获 ACM 与 AAAI 联合颁发的2003年 艾伦. 纽厄尔奖. ACM 评价珀尔在人 
工智能领域的贡献已扩展到诸多学科领域，“使统计学、心理学、医学以及社 
会科学中因果性的理解产生了革命性的变化”. 2011年珀尔还获得科学哲学领 
域最高奖拉卡托斯奖. 

珀尔之子丹尼尔是《华尔街日报》驻南亚记者， “9.11” 事件后他在巴 
基斯坦追踪报道激进武装组织时被绑架审讯并残忍地斩首，此事震惊世界.珀 
尔此后筹办了丹尼尔 • 珀尔基金会，并参与了很多致力于促进世界民族和平共 
处的活动. 






所有预测模型在广义 
上都可称为一个或一组 
“规则”，但规則学习中 
的“规则”是狭义的，事 
实上约定俗成地省略了 
“逻辑”二字. 


在数理逻辑中“文字” 
专指原子公式 （ atom ) 及其 
否定. 


第15章规则学习 


15.1 基本概念 

机器学习中的“规则” （ mle ) 通常是指语义明确、能描述数据分布所 
隐含的客观规律或领域概念、可写成“若……，则……”形式的逻辑规则 
[Furnkranz et al ., 2012]. “规则学习” (rule learning ) 是从训练数据中学习出 
一组能用于对未见示例进行判别的规则. 

形式化地看，一条规则形如. 


㊉ i ~ fi A f 2 A * * * A f]^ , (15.1) 

其中逻辑蕴含符号”右边部分称为“规则体” ( body ), 表示该条规则的前 
提，左边部分称为“规则头” ( head ), 表示该条规则的结果.规则体是由逻辑 
文字 ( literal ) 4组成的合取式 ( conjunction )， 其中合取符号 “ A ” 用来表示“并 
且”.每个文字&都是对示例属性进行检验的布尔表达式，例如“(色 泽二乌 
黑)”或(根蒂=硬挺)”. L 是规则体中逻辑文字的个数，称为规则的长度. 
规则头的 “©” 同样是逻辑文字，一般用来表示规则所判定的目标类别或概念， 
例如“好瓜”.这样的逻辑规则也被称为 “ if - then 规则”. 

与神经网络、支持向量机这样的“黑箱模型”相比，规则学习具有更好的 
口 J 解释性，能使用户更直观地对判别过程有所了解.另一方面，数理逻辑具有 
极强的表达能力，绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达. 
例如“父亲的父亲是爷爷”这样的知识不易用函数式描述，而用一阶逻辑则可 
方便地写为“爷爷 ( X ， Y )— 父亲 ( X ， Z ) A 父亲 ( Z ， F )” 5 因此，规则学习能更 
自然地在学习过程中引入领域知识.此外，逻辑规则的抽象描述能力在处理一 
些高度复杂的 AI 任务时具有显著的优势，例如在问答系统中有时可能遇到非 
常多、甚至无穷种可能的答案，此时若能基于逻辑规则进行抽象表述或者推理， 
则将带来极大的便利. 

假定我们从西瓜数据集学得规则集合尺： 

规则1:好瓜 t (根蒂=蜷缩 ） A (脐部=凹 陷）； 
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西瓜数据集 2.0 见 p .76 
表4 丄 


集成学习参见第8章. 


亦称“缺省规则”，可 
认为是一种特殊的元规则 . 


规则2: - 好瓜 f (纹理=模糊）. 

规则1的长度为2,它通过判断两个逻辑文字的赋值 ( valuation ) 来对示例进行 
判别.符合该规则的样本 (； 例如西瓜数据集 2.0 中的样本 1) 称为被该规则“覆 
盖” ( cover ). 需注意的是，被规则1覆盖的样本是好瓜，但没被规则1覆盖的未 
必不是好瓜；只有被规则2这样以好瓜”为头的规则覆盖的才不是好瓜. 

显然，规则集合中的每条规则都可看作一个子模型，规则集合是这些子模 
型的一个集成.当同一个示例被判别结果不同的多条规则覆盖时，称发生了 
“冲突” ( conflict ), 解决冲突的办法称为“冲突消解” (conflict resolution ). 常 
用的冲突消解策略有投票法、排序法、元规则法等.投票法是将判别相同的规 
则数最多的结果作为最终结果.排序法是在规则集合上定义一个顺序，在发生 
冲突时使用排序最前的规则；相应的规则学习过程称为“带序规则” (ordered 
rule ) 学习或“优先级规则” (priority rule ) 学习.元规则法是根据领域知识事先 
设定一些“元规则” （ meta - mle )， 即关于规则的规则，例如“发生冲突时使用 
长度最小的规则”，然后根据元规则的指导来使用规则集. 

此外，从训练集学得的规则集合也许不能覆盖所有可能的未见示例，例如 
前述规则集合尺无法对“根蒂=蜷缩”、“脐部=稍凹”且“纹理=清晰”的 
示例进行 判别； 这种情况在属性数目很多时常出现.因此，规则学习算法通常会 
设置一条“默认规则” (default rule ), 由它来处理规则集合未覆盖的样本；例如 
为尺增加一条默认 规则： “未被规则1, 2覆盖的都不是好瓜”. 

从形式语言表达能力而言，规则可分为 两类： “命题规则” (propositional 
rule ) 和“一^阶规则” （ first-order rule ). 前者是由“原子命题 ” （propositional 
atom ) 和逻辑连接词“与” （ A )、 “或”（ V )、“非”卜)和“蕴含”构成的 
简单陈 述句； 例如规则集尺就是一个命题规则集，“根蒂=蜷缩” “脐部二凹 
陷”' 都是原子命题.后者的基本成分是能描述事物的属性或关系的“原子公 
式 ” （atomic formula ), 例如表达父子关系的谓词 ( predicate ) “父亲 ( X ， y )” 就 
是原子公式，再如表示加一操作=叉+ 1”的函数也是原子 
公式.如果进一步用谓词“自然数( X )”表示 X 是自然数， “ VX ” 表示“对于 
任意 X 成立”， “3 F ” 表示“存在 F 使之成立”，那么“所有自然数加1都 
是自然数”就可写作(自然数自然数( X ) A(y = ( j ( X )))” ，或 
更简洁的 “ VX (自然数自然数( X ))” . 这样的规则就是一阶规则，其 
中 X 和 F 称为逻辑变量，“ V ” “3” 分别表示“任意”和“存在”，用于限定 
变量的取值范围，称为“量词” ( quantifier ). 显然，一阶规则能表达复杂的关 
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p .80 表 4.2 上半部分. 


系，因此也被称为“关系型规则” (relational rule ). 以西瓜数据为例 5 若我们简 
单地把属性当作谓词来定义示例与属性值之间的关系，则命题规则集尺可改写 
为一阶规则集7^ : 

规则1:好瓜( X ) 根蒂(足蜷缩) A 脐部( X ，凹 陷）； 

规则2: ^好瓜( X ) f 纹理( X ,模糊）. 

显然，从形式语言系统的角度来看，命题规则是一阶规则的特例，因此一阶规则 
的学习比命题规则要复杂得多. 

15.2 序贯覆盖 

规则学习的目标是产生一个能覆盖尽可能多的样例的规则集.最直接 
的做法是“序贯覆盖” (sequential covering ), 即逐条 归纳： 在训练集上每学 
到一条规则，就将该规则覆盖的训练样例去除，然后以剩下的训练样例组 
成训练集重复上述过程.由于每次只处理一部分数据，因此也被称为“分 
治” （ separate - and - conquer ) 策略. 

我们以命题规则学习为例来考察序贯覆盖法.命题规则的规则体是对样 
例属性值进行评估的布尔函数，如“色泽=青绿” “含糖率 < 0.2” 等,. 规则 
头是样例类别.序贯覆盖法的关键是如何从训练集学出单条规则.显然，对规 
则学习目标 ㊉ ，产生一条规则就是寻找最优的一组逻辑文字来构成规则体， 
这是一个搜索问题.形式化地说，给定正例集合与反例集合，学习任务是基于 
候选文字集合7 来生成最优规则 r . 在命题规则学习中，候选文字是 

形如“丑(属性 s ，属性值^)”的布尔表达式，其中属性 i 表示样例第 i 个属性, 
属性值 y 表示属性 i 的第 j 个候选值， R ( x ， y ) 则是判断^ y 是否满足关系丑 
的二元布尔函数. 

最简单的做法是从空规则“ ㊉ 开始，将正例类别作为规则头，再逐个 
遍历训练集中的每个属性及取值，尝试将其作为逻辑文字增加到规则体中，若 
能使当前规则体仅覆盖正例，则由此产生一条规则，然后去除已被覆盖的正例 
并基于剩余样本尝试生成下一条规则. 

以西瓜数据集 2.0 训练集为例，首先根据第1个样例生成文字“好瓜”和 
“色泽=青绿”加入规则，得到 


好瓜 f (色泽=青绿). 
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为简便起见，本章后续 
部分不考虑否定形式的逻 
辑文字，即仅以 f 为候选 
文字，不考虑 -I f . 


例如不含任何属性的空 
规则，它覆盖所有样例，就 
是一条比较一般的规则. 


例如直接以某样例的属 
性取值形成规则，该规则 
仅覆盖此样例，就是一条 
比较特殊的规则. 


这条规则覆盖样例1，6, 10和17,其中有两个正例和两个反例，不符合“当前 
规则仅覆盖正例”的条件.于是，我们尝试将该命题替换为基于属性“色泽” 
形成的其他原子命题，例如“色泽=乌黑”然而在这个数据集上，这样的操作 
不能产生符合条件的规则.于是我们回到“色泽=青绿”，尝试增加一个基于其 
他属性的原子命题，例如“根蒂=蜷缩”： 

好瓜 e (色泽 =青绿 ） A (根蒂=蜷缩). 

该规则仍覆盖了反例 17. 于是我们将第二个命题替换为基于该属性形成的其他 
原子命题，例如“根蒂=稍 蜷”： 

好瓜 t (色泽=青绿 ） A (根蒂=稍蜷). 

这条规则不覆盖任何反例，虽然它仅覆盖一个正例，但已满足“当前规则仅覆 
盖正例”的条件.因此我们保留这条规则并去除它覆盖的样例6,然后将剩下的 
9个样例用作训练集.如此继续，我们将 得到： 

规则1:好瓜 t (色泽=青绿 ） A (根蒂=稍蜷)； 

规则2:好瓜 f (色泽=青绿 ） A (敲声=浊响)； 

规则3:好瓜 I (色泽=乌黑 ） A (根蒂=蜷缩 )； 

规则4:好瓜 t (色泽=乌黑 ） A (纹 理二稍 糊). 

这个规则集覆盖了所有正例 5 未覆盖任何反例，这就是序贯覆盖法学得的结果. 

上面这种基于穷尽搜索的做法在属性和候选值较多时会由于组合爆 
炸而不可行.现实任务中一般有两种策略来产生 规则： 第一种是“自顶 
向下” ( top - down ), 即从比较一般的规则开始，逐渐添加新文字以缩小规 
则覆盖范围，直到满足预定条件为止；亦称为“生成-测试” （ generate - tlien - 
test ) 法，是规则逐渐“特化” （ specialization ) 的过程.第二种策略是“自底向 
上” ( bottom - up ), 即从比较特殊的规则开始，逐渐删除文字以扩大规则覆盖范 
围，直到满足条件 为止； 亦称为“数据驱动” （ data - driven ) 法，是规则逐渐“泛 
化” （ generalization ) 的过程.第一种策略是覆盖范围从大往小搜索规则，第二 
种策略则 相反； 前者通常更容易产生泛化性能较好的规则，而后者则更适合于 
训练样本较少的情形，此外，前者对噪声的鲁棒性比后者要强得多.因此，在命 
题规则学习中通常使用第一种策略，而第二种策略在一阶规则学习这类假设空 



15.2 序 贯覆盖 


间非常复杂的任务上使用较多. 
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下面以西瓜数据集 2.0 训练集为例来展示自顶向下的规则生成方法.首先 
从空规则“好瓜 f ”开始，逐一将“属性=取值”作为原子命题加入空规则进 
行考察.假定基于训练集准确率来评估规则的优劣， n / m 表示加入某命题后新 
规则在训练集上的准确率，其中 m 为覆盖的样例总数， n 为覆盖的正例数.如 
图 15.1 所示,经过第一轮评估，“色泽=乌黑”和“脐部=凹陷”都达到了最高 
准确率 3/4. 




西瓜数据集 2.0 训练集 
见 P.80 表 4.2 上半部分. 


第一轮候选集 

色泽=青绿 (2/4) 
色泽=乌黑 (3/4) 


好瓜 — d 根蒂=蜷缩 (3/5) 
敲声=浊响 (4/6) 
纹理二清晰 (4/6) 


月齐部二凹陷 (3/4) 
触感=硬滑 (3/6) 


第二轮候选集 


A - 


根蒂二捲缩 (2/2) 
• • • 

敲声=沉闷 (1/1) 
纹理=稍糊 (1/1) 
勝部=凹陷( 2 / 2 ) 
触感=硬滑(2/2) 


两轮之后产生单条 规则： 

好瓜—(色泽=乌黑)八(根蒂=蜷缩) 


图 15.1 在西瓜数据集 2.0 训练集上“自顶向下”生成单条规则 


将属性次序最靠前的逻辑文字“色泽=乌黑”加入空规则，得到 

好瓜 t (色泽=乌黑). 

然后，对上面这条规则覆盖的样例，通过第二轮评估可发现，将图 15.1 中的五 
个逻辑文字加入规则后都能达到100%准确率，我们将覆盖样例最多、且属性 
次序最靠前的逻辑文字“根蒂=蜷缩”加入规则，于是得到结果 


好瓜—（色泽=乌黑 ） A (根蒂=蜷缩). 

规则生成过程中涉及一个评估规则优劣的标准，在上面的例子中使用的标 
准是：先考虑规则准确率，准确率相同时考虑覆盖样例数，再相同时考虑属性次 
序.现实应用中可根据具体任务情况设计适当的标准. 
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决策树剪枝参见 4.3 节. 


统计显著性检验参见 
2.4 节. 


此外，在上面的例子中每次仅考虑一个“最优”文字，这通常过于贪心，易 
陷入局部最优.为缓解这个问题，可釆用一些相对温和的做法，例如采用“集束 
搜索” (beam search ), 即每轮保留最优的6个逻辑文字，在下一轮均用于构建 
候选集，再把候选集中最优的&个留待再下一轮使用.图 15.1 中若采用6 = 2 
的集束搜索，则第一轮将保留准确率为3/4的两个逻辑文字，在第二轮评估后 
就能获得下面这条规则，其准确率仍为100%,但是覆盖了 3个 正例： 

好瓜 t (脐部=凹陷 ） A (根蒂=蜷缩). 

由于序贯覆盖法简单有效， 几乎所 有规则学习算法都以它为基本框架.它 
能方便地推广到多分类问题上，只需将每类分别处理 即可： 当学习关于第 c 类 
的规则时,将所有属于类别 c 的样本作为正例，其他类别的样本作为反例. 


15.3 剪枝优化 


规则生成本质上是一个贪心搜索过程，需有一定的机制来缓解过拟合的风 
险，最常见的做法是剪枝 ( pruning ). 与决策树相似，剪枝可发生在规则生长过 
程中，即“预剪枝”，也可发生在规则产生后，即“后剪枝” ： 通常是基于某种 
性能度量指标来评估增/删逻辑文字前后的规则性能，或增/删规则前后的规则 
集性能，从而判断是否要进行剪枝. 

剪枝还可借助统计显著性检验来进行.例如 CN 2 算法 [Clark and Niblett , 
1989] 在预剪枝时，假设用顧1则集进行预测必须显著优于直接基于训练样例集 
后验概率分布进行预测.为便于计算， CN 2 使用了似然率统计量 (Likelihood 
Ratio Statistics , 简称 LRS ). 令 m +, m - 分别表示训练样例集中的正、反例数 
0, m +, m _ 分别表示规则(集)覆盖的正、反例数目，则有 


jh-j. 


LRS — 2| m + log 2 ) m++m ~ / + rh - log 2 m+ + m 


m++?7i- 


m++m 



(15.2) 


这实际上是一种信息量指标，衡量了规则(集)覆盖样例的分布与训练集经验分 
布的 差别： LRS 越大，说明采用规则(集)进行预测与直接使用训练集正、反例 
比率进行猜测的差别 越大； LRS 越小，说明规则(集)的效果越可能仅是偶然现 
象.在数据量比较大的现实任务中，通常设置为在 LRS 很大(例如 0.99) 时 CN 2 
算法才停止规则(集)生长. 
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规则学习中常称为“生 
长集 ” (growing set ) 和 
“ 剪枝集 ” (pruning set). 


RIPPER 全称 Repeat¬ 
ed Incremental Pruning to 
Produce Error Reduction, 
WEKA 中的实现称为 
JRIP. 

图 15.2 中重复次数取值 
友时亦 # RIPPERfc , 例如 
RIPPER5 意味着 k = 5. 


基于 IREP* 生成规则集 . 


后处理 . 

去除已被覆盖的样例 . 


后剪枝最常用的策略是“减错剪枝 ” （Reduced Error Pruning , 简称 REP ) 
[Brunk and Pazzani , 1991], 其基本做法是：将样例集划分为训练集和验证集， 
从训练集上学得规则集尺后进行多轮剪枝，在每一轮穷举所有可能的剪枝操 
作，包括删除规则中某个文字、删除规则结尾文字、删除规则尾部多个文字、 
删除整条规则等，然后用验证集对剪枝产生的所有候选规则集进行评估，保留 
最好的那个规则集进行下一轮剪枝，如此继续，直到无法通过剪枝提高验证集 
上的性能为止. 

REP 剪枝通常很有效 [Brunk and Pazzani , 1991], 但其复杂度是 0( m 4 )， 
m 为训练样例数目 . IREP (Incremental REP ) [Furnkranz and Widmer ，1994] 
将复杂度降到 0( mlog 2 m )， 其做 法是： 在生成每条规则前，先将当前样例集 
划分为训练集和验证集，在训练集上生成一条规则 r ， 立即在验证集上对其进 
行 REP 剪枝，得到规则 A 将 f 覆盖的样例去除，在更新后的样例集上重复上 
述过程.显然， REP 是针对规则集进行剪枝，而 IREP 仅对单条规则进行剪枝， 
因此后者比前者更高效. 

若将剪枝机制与其他一些后处理手段结合起来对规则集进行优化，则往往 
能获得更好的效果.以著名的规则学习算法 RIPPER 丨 Cohen ，1995] 为例，其泛 
化性能超过很多决策树算法，而且学习速度也比大多数决策树算法更快，奥妙 
就在于将剪枝与后处理优化相结合. 

RIPPER 算法描述如图 15.2 所示.它先使用 IREP * 剪枝机制生成规则 
集见 IREP * [ Cohen ， I 995 ] 是 IREP 的改进，主要是以取代了 
IREP 使用的准确率作为规则性能度量指标，在剪枝时删除规则尾部的多个文 
字，并在最终得到规则集之后再进行一次 IREP 剪枝. RIPPER 中的后处理机 


输入：训练样例集 
重复次数 fc. 

过程： 

1： K = IREP *( D ); 

2: i = 0; 

3: repeat 

4: IV = PostOpt(T^); 

5: Di = Not Covered (7^ ; , D); 

6 ： IZi = IREP*(Z>i); 

7 ： n = iv\jni- 

8: i — 

9: until i = k 

输出：规则集尺 


图 15.2 RIPPER 算法 
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制是为了在剪枝的基础上进一步提升性能.对尺中的每条规则 RIPPER 为 
它产生两个 变体： 

• 基于 a 覆盖的样例 ，.用 IREP * 重新生成一条规则4该规则称为替 
换规贝 U(replacement rule ); 

• rf :对 a 增加文字进行特化，然后再用 IREP * 剪枝生成一条规则 if ,该 

规则称为修订规则 (revised rule ). 

» • » . 

接下来，把 < 和 if 分别与咒中除 A 之外的规则放在一起，组成规则集记和 
咒〃，将它们与尺一起进行比较，选择最优的规则集保留下来.这就是图 15.2 中 
算法第4行所做的操作. 

为什么 RIPPER 的优化策略会有效呢？原因很简单：最初生成咒的时候， 
规则是按序生成的，每条规则都没有对其后产生的规则加以考虑，这样的贪心 
算法本质常导致算法陷入局部 最优； RIPPER 的后处理优化过程将咒中的所 
有规则放在一起重新加以优化，恰是通过全局的考虑来缓解贪心算法的局部性， 
从而往往能得到更好的效果 [Fiirnkranz et al , 2012]. 

15.4 —阶规则学习 

. 、 ， ： ' •- , * • ■ 

受限于命题逻辑表达能力，命题规则学习难以处理对象之间的“关 
系” ( relation ), 而关系信息在很多任务中非常重要.例如，我们在现实世界挑 
选西瓜时，通常很难把水果摊上所有西瓜的特征用属性值描述出来，因为我们 
很难 判断： 色泽看起来多深才叫“色泽青绿”？敲起来声音多低才叫“敲声沉 
闷”？比较现实的做法是将西瓜进行相互比较，例如，“瓜1的颜色比瓜2更 
深，并且瓜1的根蒂比瓜2更蜷”，因此“瓜1比瓜2更好”.然而，这已超越 
了命题逻辑的表达能力，需用一阶逻辑表示，并且要使用一阶规则学习. 

对西瓜数据，我们不妨 定义： 

• 色泽深 度：乌 黑> 青绿 > 浅白； 

• 根蒂 蜷度： 蜷缩 > 稍蜷 > 硬挺； 

• 敲声 沉度： 沉闷 > 浊响 > 清脆； 

• 纹理清晰度：清晰 > 稍糊 > 模糊 I 
•脐部凹陷度 ：凹陷 > 稍凹 > 平坦； 

• 触感硬度:硬滑〉软粘. 





15.4 一阶规则学习 


表 15.1 西瓜数据集 5.0 
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括号内数字对应于 p .80 
表 4.2 中 的样例编号. 


分隔线上半部分为背景 
知识，下半部分为样例. 


这样的规则亦称为一阶 
逻辑子句 ( clause ). 


色泽更深(2, 1) 

色泽更深(2, 16) 

• • • 

色泽更深 (15, 16) 

根蒂更蜷(1， 6) 

• • * 

根蒂更蜷 (17, 7) 

敲声更沉(2, 1) 

» • * 

敲声更沉(17, 7) 

纹理更清 (1, 7) 

* • * 

纹理更清(15, 14) 

脐部更凹(1， 6) 

» * • 

脐部更凹 (15, 10) 
触感更硬(1， 6) 


色泽更深(2, 6) 
色泽更深 <2，17彳 


色泽更深( 2 , 10) 
色泽更深 (3, 1) 


色泽更深(15, 17) 色泽更深(17, 14) 

根蒂更蜷 (1, 7 ) 根蒂更蜷(1， 10) 

• • • • • ^ • 

根蒂更蜷( I 7 , 10) 根蒂更蜷( I 7 , 1句 
敲声更沉( 2 , 3) 敲声更沉 (2, 6) 

• * « 參•峰 

敲声更沉(17, 10) 敲声更沉 (17, 15) 
纹理更清(1， 14) 纹理更清(1， 16) 


纹理更清(15, 16) 

脐部更凹(1， 7) 

• • • 

脐部更凹(15, 16) 
触感更硬 (1, 7) 


纹理更清(15, 17) 

脐部更凹(1， 10) 

• • « 

脐部更凹 (17, 10) 
触感更硬匕 10) 


色泽更深 (2, 14) 

色泽更深 (3, 6) 

« • • 

色泽更深 (17, 16) 

根蒂更蜷(1， 14) 

• • • 

根蒂更蜷(17, 15) 

敲声更沉(2, 7) 

• • • 

敲声更沉 (17, 16) 

纹理更清 (1, 17) 

• * • 

纹理更清(17, 16) 

脐部更凹 (1, 15) 

• « • 

脐部更凹(17, 16) 
触感更硬 15) 


触感更硬 (17, 6) 触感更硬(17, 7) 触感更硬(17, 10) 触感更硬(17, 15: 


更好(1， 10) 

更好(1， 14) 

更好(1， 15) 

更好(1， 16) 

更好(7, 14) 

更好(7, 15) 

更好(7, 16) 

更好 (7, 17) 

更好(10， 1) 

更好(10, 2) 

-■更好 (10, 3) 

更好(10, 6) 

-•更好(17, 2) 

更好(17, 3) 

-•更好(17, 6) 

，更好 (17, 7) 


于是，西瓜数据集 2.0 训练集就转化为表 15.1 的西瓜数据集 5.0. 这样的 
数据直接描述了样例间的关系，称为“关系数据 ” （relational data ), 其中由 
原样本属性转化而来的“色泽更深” “根蒂更蜷”等原子公式称为“背景知 
识” (background knowledge ), 而由样本类别转化而来的关于“更好” 更 
好”的原子公式称为关系数据样例 ( examples ). 从西瓜数据集 5.0 可学出这样 
的一阶 规则： 


(vx,vr)' (更好 (x,y) — 根蒂更蜷 ( x ， y ) 八 脐部更凹 ( X ， F )). 

显然， 一 阶规则仍是式 (15.1) 的形式，但其规则头、规则体都是一阶逻辑表 
达式，“更好 (•,•)” 、“根蒂更蜷(•，•)”、“脐部更凹 (•,•) ”是关系描述所对应 • 
的谓词，个体对象“瓜 1” 、“瓜 2” 被逻辑变量 “ X ” 、 “ y ” 替换.全称量 
词“ V ”表示该规则对所有个体对象都成立；通常，在一阶规则中所有出现的变 
量都被全称量词限定，因此下面我们在不影响理解的情况下将省略量词部分. 
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统计学习一般是基于 
“属性-值” 表示 ，这与命 
题逻辑表示等价；此类学 
习可统称为“基于命题表 
示的学习”. 


一 阶规则有强大的表达能力，例如它能简洁地表达递归概念，如 

更好( X ， y ) —• 更好 更好 ( Z , Y ) • 

一阶规则学习能容易地引入领域知识，这是它相对于命题规则学习的另一 
大优势.在命题规则学习乃至一般的统计学习中，若欲引入领域知识，通常有两 
种做法：在现有属性的基础上基于领域知识构造出新属性，或基于领域知识设 
计某种函数机制(例如正则化)来对假设空间加以约束.然而，现实任务中并非 
所有的领域知识都能容易地通过属性重构和函数约束来表达.例如，假定获得 
了包含某未知元素的化合物 X ，欲通过试验来发现它与已知化合物 y 的反应 
方程式.我们可多次重复试验，测出每次结果中化合物的组分含量.虽然我们 
对反应中的未知元素性质一无所知，但知道一些普遍成立的化学原理，例如金 
属原子一般产生离子键、氢原子之间一般都是共价键等，并且也了解已知元素 
间可能发生的反应.有了这些领域知识，重复几次试验后就不难学出 X 和 y 的 
反应方程式，还可能推测出 X 的性质、甚至发现新的分子和元素.类似这样的 
领域知识充斥在日常生活与各类任务中，但在基于命题表示的学习中加以利用 
却非常困难. 

FOIL ( First-Order Inductive Learner ) [ Quinlan , 1990] 是著名的一阶规则 
学习算法，它遵循序贯覆盖框架旦采用自顶向下的规则归纳策略，与 15.2 节中 
的命题规则学习过程很相似.但由于逻辑变量的存在， FOIL 在规则生成时需考 
虑不同的变量组合.例如在西瓜数据集 5.0 上，对“更好 ( X ,1 T 这个概念，最 
初的空规则是 

更好 ( X , y ) f . 


接下来要考虑数据中所有其他谓词以及各种变量搭配作为候选文字.新加 
入的文字应包含至少一个己出现的变量，否则没有任何实质意义.在这个例子 
中考虑下列候选文字： 

色泽更深 ( x 5 y )， 色泽更深 ( y ， x )， 色泽更深色泽更深 
色泽更深 ( y , z )， 色泽更深 ( z , y ), 色泽更深 ( x , x )， 色泽更深 
根蒂更赌(叉， y )， •. • * * * ••• 

敲声更沉 ( x ， y ), … … … 
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决策树的信息增益参见 
4.2.1 节. 

这实质上与类别不平衡 
性有关，参见 3.6 节. 


FOIL 使用 “ FOIL 增益” (FOIL gain ) 来选择 文字: 


F_Gain = m + x 



m+ 

m + + m_ 




log 2 


m+ 


m+ + m. 


(15.3) 


其中，％+, m _ 分别为增加候选文字后新规则所覆盖的正、反 例数; m +， 为 
原规则覆盖的正、反例数. FOIL 增益与决策树使用的信息增益不同，它仅考虑 
正例的信息量，并且用新规则覆盖的正例数作为权重.这是由于关系数据中正 
例数往往远少于反例数，因此通常对正例应赋予更多的关注. 


在西瓜数据集 5.0 的例子中，只需给初始的空规则体加入 
“色泽更深 ( X ，10” 或“脐部更凹 ( X ， Y )” ，新规则就能覆盖16个正例和2 
个反例，所对应的 FOIL 增益为候选最大值 I 6 x ( l 0 g 2 错 — l 0 g 2 籠）= I 3 . 28 .假 
定前者被选中，则得到 


更好 ( X , y ) I 色泽更深 ( X ， F ). 


该规则仍覆盖2个 反例： “更好(15, 1)” 与“更好 (15, 6)” . 于是， FOIL 像命 
题规则学习那样继续增加规则体长度，最终生成合适的单条规则加入规则集. 
此后， FOIL 使用后剪枝对规则集进行优化. 

若允许将目标谓词作为候选文字加入规则体 ，则 FOIL 能学出递归规则; 
若允许将否定形式的文字^ f 作为候选，则往往能得到更简洁的规则集. 

FOIL 可大致看作命题规则学习与归纳逻辑程序设计之间的过渡，其自顶 
向下的规则生成过程不能支持函数和逻辑表达式嵌套，因此规则表达能力仍有 
不足；但它是把命题规则学习过程通过变量替换等操作直接转化为一阶规则学 
习，因此比一般归纳逻辑程序设计技术更高效. 


15.5 归纳逻辑程序设计 


归纳逻辑程序设计 (Inductive Logic Programming , 简称 ILP ) 在一 阶规则 
学习中引入了函数和逻辑表达式嵌套. 一 方面，这使得机器学习系统具备了更 
为强大的表达能力；另一方面， ILP 可看作用机器学习技术来解决基于背景知 
识的逻辑程序 (logic program ) 归纳，其学得的“规则”可被 PROLOG 等逻辑 
程序设计语言直接使用. 

然而，函数和逻辑表达式嵌套的引入也带来了计算上的巨大挑战.例 
如，给定一元谓词 P 和一元函数/,它们能组成的文字有 P ( X ), P (/( X )), 
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这里的数字是瓜的编号. 


P ( f ( f ( X ))) 等无穷多个，这就使得规则学习过程中可能的候选原子公式有无 
穷多个.若仍釆用命题逻辑规则或 FOIL 学习那样自顶向下的规则生成过程， 
则在增加规则长度时将因无法列举所有候选文字而失败.实际困难还不止这 
些，例如计算 FOIL 增益需对规则覆盖的全部正反例计数，而在引入函数和逻 
辑表达式嵌套之后这也变得不可行. 

15.5.1 最小一般泛化 

归纳逻辑程序设计采用自底向上的规则生成策略,直接将一个或多个正例 
所对应的具体事实 (grounded fact ) 作为初始规贝 [ J , 再对规则逐步进行泛化以增 
加其对样例的覆盖率.泛化操作可以是将规则中的常量替换为逻辑变量，也可 
以是删除规则体中的某个文字. 

以西瓜数据集 5.0 为例，为简便起见，暂且假定“更好仅决定于 
( X , Y ) 取值相同的关系，正例“更好 (1,10)” 和“更好 (1,15)” 所对应的初始 
规则分别为 


更好(1， 10) I 根蒂更蜷(1， 10) A 声音更沉 (1,10) A 脐部更凹 (1,10) 

A 触感更硬 (1,10); 

更好(1， 15) t 根蒂更蜷(1， 15) A 脐部更凹(1， 15) A 触感更硬 (1,15). 

显然，这两条规则只对应了特殊的关系数据样例，难以具有泛化能力.因 
此，我们希望把这样的“特殊”规则转变为更“一般”的规则.为达到这个 
目的，最基础的技术是“最小一般泛化” (Least General Generalization , 简称 
LGG ) [ Plotkin , 1970]. 

给定一阶公式^和1* 2 , LGG 先找出涉及相同谓词的文字，然后对文字 
中每个位置的常量逐一进行考察，若常量在两个文字中相同则保持不变，记 
为 LGG ( t , t ) = t ; 否则将它们替换为同一个新变量，并将该替换应用于公式 
的所有其他位置：假定这两个不同的常量分别为^ 新变量为 F , 则记为 
LGG ( s , t ) - V , 并在以后所有出现 LGG ( s , t ) 的位置用 V 来代替.例如对上面 
例子中的两条规则，先比较“更好(1，10)” 和“更好(1，15)”，由于文字中常量 
“10” # “15”，因此将它们都替换为1，并在 ri 和 r 2 中将其余位置上成对出 
现的“10” 和“15” 都替换为得到 

更好 (l,y) ^•根蒂更蜷 (l ， y) A 声音更沉 (1,10) A 脐部更凹 (l,y) 

八触感更硬(1， 





更好 (1,1") I 根蒂更蜷 (1, Y ) A 脐部更凹 (1， F ) A 触感更硬 (1,10. 

然后， LGG 忽略 ri 和 r 2 中不含共同谓词的文字，因为若 LGG 包含某条 
公式所没有的谓词，则 LGG 无法特化为那条公式.容易看出，在这个例子中需 
忽略“声音更沉(1，10广这个文字，于是得到的 LGG 为 

更好 (1, I 根蒂更蜷(1， F ) A 脐部更凹(1， A 触感更硬 (1, F ). (15.4) 

式 (15.4) 仅能判断瓜1是否比其他瓜更好.为了提升其泛化能力，假定另有 
一条关于瓜2的初始规则 

更好 (2,10) t 颜色更深(2, 10) A 根蒂更蜷(2, 10) A 敲声更沉(2, 10) 

A 脐部更凹(2, 10) A 触感更硬 (2,10) ， （15.5) 

于是可求取式 (15.4) 与 (15.5) 的 LGG . 注意到文字“更好(2，10)” 和 
“更好 (1， Y )” 的对应位置同时出现了常量“10” 与变量 “ y ” ，于是可令 
LGG ( io , y ) = y 2 , 并将所有“ 10 ” 与 “ Y ” 成对出现的位置均替换为 y 2 .最 
后，令 LGG (2,1) = X 并删去谓词不同的文字，就得到如下这条不包含常量的 
一般规则： 

更好(叉，⑸—根蒂更蜷( X , K ) 八脐部更凹( X ， R ) 八触感更硬( X , %)• 

上面的例子中仅考虑了肯定文字，未使用 “ n ” 符号.实际上 LGG 还能进 
行更复杂的泛化操作.此外，上面还假定“更好 ( Z , 10” 的初始规则仅包含变 
量同为 ( X , Y ) 的 关系， 而背景知识中往往包含其他一些有用的关系，因此许多 
ILP 系统釆用了不同的初始规则选择方法.最常用的是 RLGG (Relative Least 
General Generalization ) [ Plotkin ，1971]， 它在计算 LGG 时考虑所有的背景知 
识，将样例 e 的初始规则定义为 e e K ， 其中 K 是背景知识中所有原子的合取. 

容易证明， LGG 是能特化为 ri 和 r 2 的所有一阶公式中最特殊的一 个：不 
存在既能特化为 q 和 r 2 , 也能泛化为它们的 LGG 的一阶公式 

在归纳逻辑程序设计中，获得 LGG 之后，可将其看作单条规则加入规则 
集，最后再用前几节介绍的技术进一步优化，例如对规则集进行后剪枝等. 

15.5.2 逆归结 

在逻辑学中，“演绎” （ deduction ) 与“归纳” （ induction ) 是人类认识世界 
的两种基本方式.大致来说,演绎是从一般性规律出发来探讨具体事物，而归纳 
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十九世纪英国政治经 
济学家和哲学家 W . S . 
Jevons 通过数理方法论证, 
最早明确指出归纳是演绎 
的逆过程. 


则是从个别事物出发概括出一般性规律.一般数学定理证明是演绎实践的代表, 
而机器学习显然是属于归纳的范畴.1965年，逻辑学家 J . A . Robinson 提出， 
一阶谓词演算中的演绎推理能用一条十分简洁的规则描述，这就是数理逻辑 
中著名的归结原理 (resolution principle ) [ Robinson , 1965]. 二十多年后，计算机 
科学家 S . Muggleton 和 W . Buntine 针对归纳推理提出了 “逆归结” (inverse 
resolution ) [Muggleton and Buntine , 1988]， 这对归纳逻辑程序设计的发展起到 
了重要作用. 

基于归结原理，我们可将貌似复杂的逻辑规则与背景知识联系起来化繁为 
简；而基于逆归结，我们可基于背景知识来发明新的概念和关系.下面我们先以 
较为简单的命题演算为例，来看看归结、逆归结是怎么回事. 

假定两个逻辑表达式 Ci 和 C 2 成立，且分别包含了互补项与1 2 ;不失 
—■般性，令 L = Li = Ci — AV C2 = B \/ - iL . 归结原理告诉我们，通过 

演绎推理能消去 L 而得到“归结项” C = AWB . 若定义析合范式的删除操作 

(AW B ) - { B } = A , (15.6) 

则归结过程可表述为 

C = (Ci — {L}) V ( C2 — {-1- L }) , (15.7) 

简记为 

C = C ^ C 2 . (15.8) 

图 15.3 给出了归结原理的一个直观例示. 、 


AVL J 5 V-L 



图 15.3 归结原理例示 


与上面的过程相反，逆归结研究的是在已知 C 和某个 Q 的情况下如何得 
假定已知 C 和6^求0 2 ,则由式(15.7)，该过程可表述为 

C2 — {O — (Ci — { L })) V ' L }. 


(15.9) 
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在逻辑推理实践中如何实现逆归结呢？ [ Muggleton , 1995] 定义了四种完备 
的逆归结操作.若以规则形式 p f g 等价地表达 p V qg ， 并假定用小写字母表 
示逻辑文字、大写字母表示合取式组成的逻辑子句，则这四种操作是： 




吸收 ( absorption ) : 

辨识 ( identification ) : 

内构 ( intra - construction ) : 
互构 ( inter - construction ) : 


p ^ AA B q A 

P i - Q A B Q i — A 

p i - A A B p i — A A q 
Q ^- B p i - A A Q 
p < — A /\ B p i — A /\ C 
Q i — B p i — A A Q Q i — C 
P AAB q ^ T - AaC 
p r A B r ^ r - A q ^ r - r AC 



读作 “久 推出 Y ” . 


这里我们用 f 表示 X 蕴含乙在数理逻辑里写作 XhF . 上述规则中， X 的子 
句或是 F 的归结项，或是 1" 的某个子句的等价项；而 F 中出现的新逻辑文字则 
可看作通过归纳学到的新命题. 

归结、逆归结都能容易地扩展为一阶逻辑形式；与命题逻辑的主要不同之 
处是，一阶逻辑的归结、逆归结通常需进行合一置换操作. 

“置换” （ substitution ) 是用某些项来替换逻辑表达式中的变量.例如 
用沒= {1/ X .2/ Y } 置换 “C =色泽更深 ( X ， F ) A 敲声更沉 ( X ， Y )” 可得到 
“ C f = C 0 = 色泽更深( I ， 2 ) A 敲声更沉( I ， 2 )”，其中 { X ， y } 称为 (9 的作用 
域 ( domain ). 与代数中的置换类似，一阶逻辑中也有“复合置换”和“逆置 
换”.例如先用0 将 X 替换为 F ， 再用 A = {1/ y } 将 F 替换为1，这 

样的复合操作记为 OoX ； 0 的逆置换则记为0- 1 = { X / Y }. 

“合一” （ rniificatkm ) 是用一种变量置换令两个或多个逻辑表达式相 
等.例如对 “A =色泽更深 (1， X )” 和=色泽更深 ( y ， 2 )” ，可用沒= 
{2/ X , l / F } 使“沏 = B 6 = 色泽更深(1，2)” ；此时称4和 B 是“可合 一 
的” （ unifiable )， 称0为 A 和 B 的“合一化子” （ unifier ) •若 (5 是一组一阶逻 
辑表达式 W 的合一化子，且对 VF 的任意合一化子6»均存在相应的置换 A 使 
沒= 6 o A ， 则称6为 W 的“最一般合一置换”或“最一般合一化子 ” （most 
general unifier , 简记为 MGU ), 这是归纳逻辑程序中最重要的概念之一.例如 
“色泽更深 (1,1 T 和“色泽更深( X ， Y )” 能被 ^ = {1/ X }, 9 2 = {1/ X .2/ Y }, 
0 3 = {1/ Z , Z / X } 合一，但仅有&是它们的 MGU . 

一 阶逻辑进行归结时，需利用合一操作来搜索互补项 ivl 和 1/2. 对两个一 
阶逻辑表达式 Cl = A V ivi 和 C2 = B V 1>2，若存在合一■化子0使沒， 
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则可对其进行归结: 


C = {Cl ~ { Li })<9 v ( C 2 - {L 2 })e . (15.14) 


类似的，可利用合一化子对式 (15.9) 进行扩展得到一阶逻辑的逆归结.基 
于式 (15.8), 定义 Ci = C / C2 和 C2 = C/Ci 为“归结商” (resolution quotient ), 
于是，逆归结的目标就是在已知 Q 和 G 时求出归结商 C 2 . 对某个 A € C l5 假 
定01是一个置换，它能使 


对 (7 = AVB , 有 A 卜 C7 
与 (C = A V J5) 等价 . 


(Ci- {Li})0i h C 5 


(15.15) 


这里的作用域是中所有变量，记为 vars ( Ci ), 其作用是使 Ci - { la } 与 
C 中的对应文字能合一.令也为作用域是 vars^Lj - vars(Ci - { Li }) 的置 
换 5 L 2 为归结商 C 2 中将被消去的文字， 02 是以 vars ( L 2 ) 为作用域的置换，扣 
与01共同作用于 la ， 使得 -^101 0(/)2 = 1/202,于是01 ◦(/>2 0 02为与 h 
的 MGU . 将前两步的复合置换扣。扣记为化，用斤 1 表示^的逆置换，则有 
(- Li ^ i )^ 1 = L 2 . 于是， 类似于式(1 5 .9)，一阶逆归结是 

C 2 = (C~ (Cl - { Li })(9 i V (15.16) 

在一阶情形下 la 、 1 2 、 6 >；l 和^的 选择通常都不 唯一， 这时需通过一些其他的 
判断标准来取舍,例如覆盖率、准确率、信息熵等. 

以西瓜数据集 5.0 为例，假定我们通过一些步骤已得到规则 

Ch= 更好(1， X ) 1 根蒂更蜷 (1, X ) A 纹理更清 (1, X ); 

C 2 = 更好( 1 ， y )— 根蒂更蜷( 1 ， A 敲声更沉(1， 1"). 

容 易看出 它们是 AAB” 和 “p t AAC” 的 形式，于是可使用内构操作 
式 (15.12) 来进行逆归结.由于 C ^， C 2 中的谓词都是二元的，为保持新规则描 
述信息的完整性，我们创造一个新的二元谓词 q{M,N), 并根据式 (15.12) 得到 

C f = 更好 (1, Z ) I 根蒂更蜷(1， Z ) 八 q[M ， N) , 

式 (15.12) 中横线下方的另两项分别是 eye WC 2 / C 的归结商. MCh/C，, 
容易发现 C 中通过归结消去 h 的选择可以有 根蒂更蜷 和 





15.6 阅读材料 


奥卡姆剃刀原则参见 
1.4 节. 


AQ 是 Algorithm Quasi - 
optimal 的缩写. 


决策树的每个叶结点对 
应一个等价类 

WEKA 中有 PRISM 的 

实现. 


RIPPER 达至 I ] 了 t 匕 C 4.5 
决策树既快又好的效果. 
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“1( M ， iV )” . 9是新发明的谓词，迟早需学习一条新规则 “q[M，N) — ?” 
来定 义它； 根据奥卡姆剃刀原则，同等描述能力下学得的规则越少越 
好，因此我们将 i ( M ， iV ) 作为 Z / i . 由式(15.16)，存在解：1/2 = ^(1,5), 
(j)i = {X/Z}, (j) 2 = {1/M.X/N}, 0 2 = {X/S}. 通过简单的演算即可求 
出归结商为“<1， S ) ^纹理更清(1，$” . 类似地可求出 C 2 /C f 的归结商 
“ g ( i , r ) 4-敲声更沉 ( i , r )”. 

逆归结的一大特点是能自动发明新谓词 ，这些 新谓词可能对应于样例属性 
和背景知识中不存在的新知识，对知识发现与精化有重要意义.但自动发明的 
新谓词究竟对应于什么语义，例如意味着“更新鲜”？ “更甜”？ “更多 
日晒”？……这只能通过使用者对任务领域的进一步理解才能明确. 

上面的例子中我们只介绍了如何基于两条规则进行逆归结.在现实任务 
中， ILP 系统通常先自底向上生成一组规则，然后再结合最小一般泛化与逆归 
结做进一步学习. 

15.6 阅读材料 

规则学习是“符号主义学习 ” （symbolism learning ) 的主要代表，是最早开 
始研究的机器学习技术之一 [ Michalski , 1983]. [Fiirnkranz et al ., 2012] 对规则 
学习做了比较全面的总结. 

序贯覆盖是规则学习的基本框架，最早在 [ Michalski , 1969] 的 AQ 中被 
提出， AQ 后来发展成一个算法族，其中比较著名的有 AQ 15 [Michalski et al . 5 
1986]、 AQ 17 -HCI [Wnek and Michalski , 1994] 等.受计算能力的制约，早期 
AQ 在学习时只能随机挑选一对正反例作为种子开始训练，样例选择的随机性 
导致 AQ 学习效果不稳定 . PRISM [ Cendrowska , 1987] 解决了这个问题，该算 
法最早采用自顶向下搜索，并显示出规则学习与决策树学习相比的优点：决策 
树试图将样本空间划分为不重叠的等价类，而规则学习并不强求这一点，因此 
后者学得的模型能有更低的复杂度.虽然 PRISM 的性能不如 AQ , 因此在当时 
反响不大，但今天来看，它是规则学习领域发展的重要一步. 

CN 2 [Clark and Niblett ，1989] 采用集束搜索，是最早考虑过拟合问题的规 
则学习算法. [ Fiirnkranz , 1994] 显示出后剪枝在缓解规则学习过拟合中的优势. 
RIPPER [ Cohen , 1995] 是命题规则学习技术的高峰，它融合了该领域的许多技 
巧，使规则学习在与决策树学习的长期竞争中首次占据上风，作者主页上的 C 
语言 RIPPER 版本至今仍代表着命题规则学习的最高水平. 

关系学习的研究一般认为始于 [ Winston , 1970]; 由于命题规则学习很难完 
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知识工程与专家系统参 
见 1.5 节. 


成此类任务， 一 阶规则学习开始得以发展. FOIL 通过变量替换等操作把命题规 
则学习转化为一阶规则学习，该技术至今仍有使用，例如2010年卡耐基梅隆大 
学开展的“永动语言学习” ( Never-Ending Language Learning , 简称 NELL ) 计 
划即采用 FOIL 来学习自然语言中的语义关系 [Carlson et al ., 2010]. 很多文献 
将所有的一阶规则学习方法都划入归纳逻辑程序设计的范畴，本书则是作了更 
为严格的限定. 

[ Muggleton , 1991] 提出了 “归纳逻辑程序设计” (ILP) 这个术语，在 
GOLEM [Muggleton and Feng , 1990] 中克服了许多从命题逻辑过渡到一阶 
逻辑学习的困难，并确立了自底向上归纳的 ILP 框架.最小一般泛化 （ LGG ) 
最早由 [ Plotkin , 1970] 提出 ， GOLEM 则使用了 RLGG . PROGOL [ Muggleton ， 
1995] 将逆归结改进为逆蕴含 (inverse entailment ) 并取得了更好效果.新谓词 
发明方面近年有一些新进展 [Muggleton and Lin , 2013]. 由于 ILP 学得的规 
则几乎能直接被 PROLOG 等逻辑程序解释器调用，而 PROLOG 在专家系统 
中常被使用，因此 ILP 成为连接机器学习与知识工程的重要桥梁 . PROGOL 
[ Muggleton , 1995] 和 ALEPH [ Srinivasan , 1999] 是应用广泛的 ILP 系统，其基 
本思想已在本章关于 ILP 的部分有所体现 . Datalog [Ceri et al ., 1989] 则对数 
据库领域产生了很大影响，例如甚至影响了 SQL 1999标准和 IBM DB 2. ILP 
方面的重要读物有 [ Muggleton , 1992; Lavrac and Dzeroski , 1993], 并且有专门 
的国际归纳逻辑程序设计会议 (ILP). 

ILP 复杂度很高，虽在生物数据挖掘和自然语言处理等任务中取得一些 
成功 [Bratko and Muggleton ，1995], 但问题规模稍大就难以处理，因此，这方 
面的研究在统计学习兴起后受到一定抑制.近年来随着机器学习技术进入更 
多应用领域，在富含结构信息和领域知识的任务中，逻辑表达的重要性逐渐凸 
显出来，因此出现了一些将规则学习与统计学习相结合的努力，例如试图在归 
纳逻辑程序设计中引入概率模型的“概率归纳逻辑程序设计” (probabilistic 
ILP ) [De Raedt et al . ? 2008]> 给贝叶斯网中的结点赋予逻辑意义的“关系贝 
叶斯网” (relational Bayesian network ) [ Jaeger ， 2 00 2 ] 等. 事实上，将关系学习 
与统计学习相结合是机器学习发展的一大趋势，而概率归纳逻辑程序设计是 
其中的重要代表，其他重要代表还有概率关系模型 [Friedman et al .， 1999]、贝 
叶斯逻辑程序 (Bayesian Logic Program ) [Kersting et al ., 2000]> 马尔可夫逻辑 
网 (Markov logic network ) [Richardson and Domingos , 2006] 等，统称为“统计 
关系学习 ” （statistical relational learning ) [Getoor and Taskar , 2007]. 
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西瓜数据集 2.0 见 p .76 
表4丄 


西瓜数据集 2.0 a 见 p .86 
表 4.4. 


在 S 无法合一时输出 
无解”. 


习题 

15.1 对西瓜数据集2.0,允许使用否定形式的文字 5 试基于自顶向下的策略 
学出命题规则集. 

15.2 对西瓜数据集 2.0, 在学习过程中可通过删去文字、将常量替换为变 
量来进行规则泛化，试基于自底向上的策略学出命题规则集. 

15.3 从网上下载或自己编程实现 RIPPER 算法，并在西瓜数据集 2.0 上学 
出规则集. 


15.4 规则学习也能对缺失数据进行学习.试模仿决策树的缺失值处理方法， 
基于序贯覆盖在西瓜数据集 2.0 a 上学出命题规则集. 

15.5 从网上下载或自己编程实现 RIPPER 算法，允许使用否定形式的文 
字，在西瓜数据集 5.0 上学出一阶规则集. 

15.6 对西瓜数据集5.0,试利用归纳逻辑程序学习概念“更坏 . 

15.7 试 证明： 对于一阶公式 ri 和 r 2 , 不存在既能特化为 ri 和 r 2 、 也能泛 
化为它们的 LGG 的一阶公式 

15.8 试生成一个西瓜数据集 5.0 的 LGG 集合. 

15.9* 一阶原子公式是一种递归定义的公式，形如其中 P 
是谓词或函数符号，^称为“项”，可以是逻辑常量、变量或者其他 
原子公式.对一阶原子公式爲的集合 S = { E u E 2 ,..., E n ), 试设计 
一 个算法求解其 MGU . 

15.10* 基于序贯覆盖的规则学习算法在学习下一条规则前，会将已被当前规 
则集所覆盖的样例从训练集中删去.这种贪心策略使得后续学习过程 
仅需关心以往未覆盖的样例，在判定规则覆盖率时不需考虑前后规则 
间的相关性；但该策略使得后续学习过程所能参考的样例越来越少. 
试设计一种不删除样例的规则学习算法. 
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休息一会儿 


卡鲁兹 ( Kalusz ) 在历史 
上先后属于波兰、俄罗 
斯、德国、乌克兰等国. 


参见 1.5 节. 


小 故事： 机器学习先驱雷萨德•迈克尔斯基 

AQ 系列算法是规则学习研究早期的重要成果，主要发 
明人是机器学习先驱、美籍波兰裔科学家雷萨德•迈克尔 
斯基 (Ryszard S . Michalski , 1937— 2007). 

迈克尔斯基出生在波兰卡鲁兹，1969年在波兰获得计 
算机科学博士学位，同年在南斯拉夫布莱德 ( Bled , 现属斯 
洛文尼亚）举行的 FCIP 会议上发表了 AQ . 1970年他前往美国 UIUC 任教，此 
后在美囯进一步发展了 AQ 系列算法.迈克尔斯基是机器学习领域的主要奠基 
人之一 . 1980年他与 J . G . Carbonell 、 T . Mitchell 一起在卡耐基梅隆大学组织 
了第一次机器学习研讨会，1983、1985年又组织了第二、三次，这个系列研讨 
会后来发展成国际机器学习会议 （ ICML ); 1983年，迈克尔斯基作为第一主编 
出版了《机器 学习： 一种人工智能途径》这本机器学习史上里程碑性质的 著作; 
1986年 Machine lemming 创刊，迈克尔斯基是最初的三位编辑之一 . 1988年 
他将研究组迁到乔治梅森大学，使该校成为机器学习早期发展的一个重镇. 
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16.1 任务与奖赏 

我们考虑一下如何种西瓜.种瓜有许多步骤，从一开始的选种，到定期浇 
水、施肥、除草、杀虫，经过一段时间才能收获西瓜.通常要等到收获后，我们 
才知道种出的瓜好不好.若将得到好瓜作为辛勤种瓜劳动的奖赏，则在种瓜过 
程中当我们执行某个操作(例如，施肥)时，并不能立即获得这个最终奖赏，甚至 
难以判断当前操作对最终奖赏的影响，仅能得到一个当前反馈(例如，瓜苗看起 
来更健壮了).我们需多次种瓜，在种瓜过程中不断摸索，然后才能总结出较好 
亦称 “再励 学习” • 的种瓜策略.这个过程抽象出来，就是“强化学习” (reinforcement learning ). 



奖赏 r 


图 16.1 强化学习图示 

图 16.1 给出了强化学习的一个简单图示.强化学习任务通常用马尔可夫决 
策过程 (Markov Decision Process , 简称 MDP ) 来描述：机器处于环境五中，状 
态空间为 X ，其中每个状态 xgX 是机器感知到的环境的 描述， 如在种瓜任务 
上这就是当前瓜苗长势的描述；机器能釆取的动作构成了动作空间為如种瓜 
过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的 动作； 若某个 
动作 a G A 作用在当前状态: r 上，则潜在的转移函数 P 将使得环境从当前状态 
按某种概率转移到另一个状态，如瓜苗状态为缺水，若选择动作浇水 5 则瓜苗长 
势会发生变化，瓜苗有一定的概率恢复健康，也有一定的概率无法 恢复; 在转移 
到另一个状态的同时，环境会根据潜在的“奖赏” （ reward ) 函数丑反馈给机器 
一个奖赏，如保持瓜苗健康对应奖赏+1，瓜苗凋零对应奖赏-10,最终种出了 
好瓜对应奖赏 +100. 综合起来，强化学习任务对应了四元组 E =〈 X ， A , P ， 丑〉, 
其中 P : XxAxX^R 指定了状态转移概率， i?:Xx 指定了奖 

赏；在有的应用中，奖赏函数可能仅与状态转移有关，即丑 ：X x X ^ R . 

图 16.2 给出了一个简单例子：给西瓜绕水的马尔可夫决策过程.该任务中 
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a = 不洗水《=洗水 
/?=0.4 /?=0.6 



图 16.2 给西瓜浇水问题的马尔可夫决策过程 


只有四个状态(健康、缺水、溢水、凋亡)和两个动作(浇水、不浇水 )， 在每一 
步转移后，若状态是保持瓜苗健康则获得奖赏1，瓜苗缺水或溢水奖赏为-1，这 
时通过浇水或不浇水可以恢复健康状态，当瓜苗凋亡时奖赏是最小值 -100 且 
无法恢复.图中箭头表示状态转移，箭头旁的 a ， p ， r 分别表示导致状态转移的 
动作、转移概率以及返回的奖赏.容易看出，最优策略在“健康”状态选择动 
作“浇水”、在“溢水”状态选择动作“不浇水”、在“缺水”状态选择动 
作“浇水”、在“凋亡”状态可选择任意动作. 

需注意“机器”与“环境”的界限，例如在种西瓜任务中，环境是西瓜生 
长的自然世界；在下棋对弈中，环境是棋盘与对手；在机器人控制中，环境是机 
器人的躯体与物理世界. 总之， 在环境中状态的转移、 奖 赏的返回是不受机器 
控制的，机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后 
的状态和返回的奖赏来感知环境. 

机器要做的是通过在环境中不断地尝试而学得一个“策略” （ policy ) 7 T ， 根 
据这个策略，在状态 x 下就能得知要执行的动作 a = ttOzO , 例如看到瓜苗状态 
是缺水时，能返回动作“浇水”.策略有两种表示方法：一种是将策略表示为 
函数 7 T : X 4 A 确定性策略常用这种表示;另一种是概率表示 7 T ： X X ^ E , 
随机性策略常用这种表示， 7 T ( x , a ) 为状态 0 ；下选择动作 a 的概率，这里必须有 

E a 7T(x ， a) = 1. 

策略的优劣取决于长期执行这一策略后得到的累积奖赏，例如某个策略使 
得瓜苗枯死,它的累积奖赏会很小，另一个策略种出了好瓜，它的累积奖赏会很 
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亦称 “ K - 摇臂老虎 
机”. 


大.在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策 
略.长期累积奖赏有多种计算方式，常用的有“ T 步累积奖赏” E [ i ELin ] 
和 “ 7折扣累积奖赏” 其中 r t 表示第 f 步获得的奖赏值， E 表 

示对所有随机变量求期望. 

读者也许已经感觉到强化学习与监督学习的差别.若将这里的“状态”对 
应为监督学习中的“示例”、“动作”对应为“标记”，则可看出，强化学习 
中的“策略”实际上就相当于监督学习中的“分类器”（当动作是离散的)或 
“回归器”（当动作是连续的 )， 模型的形式并无差别.但不同的是，在强化学 
习中并没有监督学习中的有标记样本(即“示例-标记”对)，换言之，没有人直 
接告诉机器在什么状态下应该做什么动作，只有等到最终结果揭晓，才能通过 
“反思”之前的动作是否正确来进行学习.因此，强化学习在某种意义上可看 
作具有“延迟标记信息”的监督 学习问 题. 

16.2 摇臂赌博机 - 


16.2.1 探索 与利用 


与一般监督学习不同，强化学习任务的最终奖赏是在多步动作之后才能观 
察到，这里我们不妨先考虑比较简单的 情形： 最大化单步奖赏，即仅考虑一步 
操作.需注意的是，即便在这样的简化情形下，强化学习仍与监督学习有显著不 
同，因为机器需通过尝试来发现各个动作产生的结果，而没有训练数据告诉机 
器应当做哪个动作. 

欲最大化单步奖赏需考虑两个方面：一是需知道每个动作带来的奖赏，二 
是要执行奖赏最大的动作.若每个动作对应的奖赏是一个确定值，那么尝试一 
遍所有的动作便能找出奖赏最大的动作.然而，更一般的情形是，一个动作的奖 
赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值. 

实际上,单步强化学习任务对应了一个理论模型， S 卩摇臂赌博机” （ in ¬ 
armed bandit ). 如图 16.3 所示， 摇臂赌博机有 iif 个摇臂，赌徒在投入一个 
硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概 
率赌徒并不知道.赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最 
多的硬币. 

若仅为获知每个摇臂的期望奖赏，则可采用“仅探索” （ exploration - 
only ) 法： 将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂)，最后 
以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计.若仅为执行奖赏 
最大的动作，则可采用“仅利用” （ exploitation - only ) 法：按卞目前最优的(即到 
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目前为止平均奖赏最大的)摇臂，若有多个摇臂同为最优，则从中随机选取一个. 
显然，“仅探索”法能很好地估计每个摇臂的奖赏，却会失去很多选择最优摇 
臂的机会；“仅利用”法则相反，它没有很好地估计摇臂期望奖赏，很可能经常 
选不到最优摇臂.因此，这两种方法都难以使最终的累积奖赏最大化. 

事实上，“探索”（即估计摇臂的优劣)和“利用”（即选择当前最优摇 
臂)这两者是矛盾的，因为尝试次数(即总投币数)有限，加强了一方则会自 
然削弱另一方，这就是强化学习所面临的“探索-利用窘境” （ Exploration - 
Exploitation dilemma ). 显然，欲累积奖赏最大，则必须在探索与利用之间达成 
较好的折中. 

16.2.2 e 贪心 

&贪心法基于一个概率来对探索和利用进行 折中： 每次尝试时，以 e 的概率 
进行探索，即以均匀概率随机选取一个 摇臂； 以1 - e 的概率进行利用，即选择 
当前平均奖赏最高的摇臂(若有多个，则随机选取一个: ). 

令 Q { k ) 记录摇臂 A ; 的平均奖赏.若摇臂 A ; 被尝试了 n 次，得到的奖赏为 
Vi , V 2 , …， V n ， 则平均奖赏为 

Q {^) — ~ v i • (16.1) 

几 i=l 

若直接根据式 (16.1) 计算平均奖赏，则需记录 n 个奖赏值.显然，更高效的 
做法是对均值进行增量式计算，即每尝试一次就立即更新不妨用下标来 
表示尝试的次数，初始时 Qo ( k ) = 0. 对于任意的 1, 若第 n -1 次尝试后的 
平均奖赏为 Qn - i ( kh 则在经过第 n 次尝试获得 奖赏％ 后，平均奖赏应更新为 

Qn(k) = — ((n — 1) x Q n -i(k) + v n J (16.2) 
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式 (16.3) 会在 16.4.2 节 
中用到. 


Q ( i ) 和 count ( z ) 分别记 

录摇臂 i 的平均奖赏和选 
+次嚴. 

在[0，1]中生成随机数. 


本次尝试的奖赏值. 

式 (16.2) 更新平均奖赏. 


— Qn-i{k) + —( v n — Q n -l(k)) . (16.3) 

71 / 

这样，无论摇臂被尝试多少次都仅需记录两个值：已尝试次数 n - 1和最近平均 
奖赏 Qn-1 ⑻. e - 贪心算法描述如图 16.4 所示 • 


0, count ⑷= 0; 


输入： 摇臂数 

奖赏函数戊 
尝试次数 T ; 

探索概率 e 

过程： 

1： r = 0; 

2 ： Vi = l,2,...K: Q(i) 

3: for t = 1,2,... ,T do 
4： if rand ()< e then 

5: = 从 1, 2,... ， ii ： 中以均匀分布随机选取 

6: else 

7: k = argmaxj Q(i) 

8: end if 

9 ： v = R(k)] 

10 ： r = r + v] 

ii. D(h\ — Q(fc)Xcount(fc)+u . 

11. _ — count(fc) + l ~~ ， 

12 ： count(/c) = count(/c) -H 1 ； 

13: end for 

输出：累积奖赏 r 


图 16.4 e - 贪心算法 

若摇臂奖赏的不确定性较大，例如概率分布较宽时，则需更多的探索，此时 
需要较大的 e 值；若摇臂的不确定性较小，例如概率分布较集中时，则少量的尝 
试就能很好地近似真实奖赏，此时需要的 e 较小.通常令 e 取一个较小的常数， 
如 0.1 或 0.01. 然而，若尝试次数非常大，那么在一段时间后，摇臂的奖赏都能 
很好地近似出来，不再需要探索，这种情形下可让 e 随着尝试次数的增加而逐 
渐减小，例如令 e = 1/以. 

16.2.3 Softmax 

Softmax 算法基>当前已知的摇臂平均奖赏来对探索和利用进行折中.若 
各摇臂的平均奖赏相当，则选取各摇臂的概率也 相当； 若某些摇臂的平均奖赏 
明显高于其他摇臂，则它们被选取的概率也明显更高. 
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第 4 行中式 (16.4) 的参 
数. ’ 


Q ( i ) 和 count ( i ) 分别记 

录摇臂 i 的平均奖赏和选 
+ 次叙. 

本次尝试的奖赏值. 


式 (16. 2 ) 更新平均奖赏. 


m 


Q(k) 
e 丁 

Q(i) 

丁 

i=l 


E 


(16.4) 


其中， Q ⑷记录当前摇臂的平均奖赏； T > 0称为“温度”， T 越小则平均奖赏 
高的摇臂被选取的概率越高. t 趋于0时 Softmax 将趋于“仅利用”， t 趋于无 
穷大时 Softmax 则将趋于“仅探索”. Softmax 算法描述如图 16.5 所示. 


输入：摇臂数 

奖赏函数尽 
尝试次数 T; 
温度参数 T. 

过程： 


1 

2 

3 

4 

5 

6 

7 

8 
9 


r = 0; • 

Vi = 1,2,... : Q(i) = 0, count(i) = 0; 

for t = 1,2,... ,T do 

；c = 从 1 ， 2, ... ， K 中根据式 (16.4 ) 随机选取 
v = R(k); 
r = r + v; 

nfb\ — Q(fc)xcount(fc)+t;. 

— count ⑻ +1 , 

count (A:) = count ⑻ + 1; 
end for 


输出： 累积奖赏 r 


图 16.5 Softmax 算法 

e - 贪心算法与 Softmax 算法孰优孰劣，主要取决于具体应用.为了更直观 
地观察它们的差别，考虑一个简单的例子：假定2-摇臂赌博机的摇臂1以 0.4 
的概率返回奖赏1,以 0.6 的概率返回奖赏0;摇臂2以 0.2 的概率返回奖赏1, 
以 0.8 的概率返回奖赏0.图 16.6 显示了不同算法在不同参数下的平均累积 
奖赏，其中每条曲线对应于重复1000次实验的平均结果.可以看出 ， Softmax 
(r = 0.01) 的曲线与“仅利用”的曲线几乎重合. 


对于离散状态空间、离散动作空间上的多步强化学习任务，一种直接的办 
法是将每个状态上动作的选择看作一个 X - 摇臂赌博机问题，用强化学习任务 
的累积奖赏来代替摇臂赌博机算法中的奖赏函数，即可将赌博机算法用于 
每个状态：对每个状态分别记录各动作的尝试次数、当前平均累积奖赏等信 
息，基于赌博机算法选择要尝试的动作.然而这样的做法有很多局限，因为它没 
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0.25 



500 1000 1500 2000 2500 3000 

尝试次数 


图 16.6 不同算法在2-摇臂赌博机上的性能比较 


有考虑强化学习任务马尔可夫决策过程的结构.在 16.3 节将会看到，若能有效 
考虑马尔可夫决策过程的特性，则可有更聪明的办法. 


16.3 有模型学习 


16.4 节将讨论模型未知 
情形. 


考虑多步强化学习任务，暂且先假定任务对应的马尔可夫决策过程四元组 
E=(X,A,P,R) 均为已知，这样的情形称为“模型已知”，即机器己对环境进 
行了建模，能在机器内部模拟出与环境相同或近似的状况.在已知模型的环境 
中学习称为“有模型学习” （ model-based learning ). 此时，对于任意状态 a / 
和动作 a ， 在 Z 状态下执行动作 a 转移到 〆 状态的概率 P ^ x , 是已知的，该转 
移所带来的奖赏 R a x _ x , 也是己知的.为便于讨论，不妨假设状态空间 X 和动作 
空间 A 均为有限. 


16.3.1 策略评估 

在模型已知时，对任意策略 w 能估计出该策略带来的期望累积奖赏.令 
函数 P ㈤ 表示从状态^出发，使用策略 7 T 所带来的累积 奖赏； 函数 Q ^ x . a ) 
表示从状态 Z 出发，执行动作 a 后再使用策略 7 T 带来的累积奖赏.这里的 
1/ ㈠ 称为“状态值函数 ” （state value function ), ㈠ 称为“状态-动作值函 
数” ( state-action value function ) ,分别表示指定“状态”上以及指定“状 
态-动作”上的累积奖赏. 
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这样的递归等式称为 
Bellman 等式. 


动作-状态全概率展开. 
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由累积奖赏的定义，有状态值函数 

! V ^( x )= E n ZLi n | , T 步累积 奖赏； 

\ v ^( x ) = e 1t [ ESfn+i I 邳 = x ], 7 折扣累积奖赏. 


为叙述简洁，后面在涉及上述两种累积奖赏时，/就不再说明奖赏类别，读者 
从上下文应能容易地判知.令吻表示起始状态， k 示起始状态上采取的第一 
个 动作； 对于 T 步累积奖赏，用下标 t 表示后续执行的步数.我们有状态-动作 
值函数 

f Qr( Xi > °) ~ ^t=i r t \ x o = ao — a]; (16 6) 

= 胚 7T 1 〜 t+1 ^0 = dQ = d . 

由于 MDP 具有马尔可夫性质，即系统下一时刻的状态仅由当前时刻的状 
态决定，不依赖于以往任何状态，于是值函数有很简单的递归形式.对于： T 步 
累积奖赏有 


Vf ( x ) = Eti - 


T 


卜 0 


X 






T 


t=l 


n 


r 一 l 


T 


T T- 


t=2 


n x 0 = x 


^7 r ( x , a ) J2 P : 

aeA x'^X 

J^Trix.a) p c 


—R a , 

rp ± L X-^X f 


aeA 


f ex 


T 


rya 

代 x- 


T—l 

T 

T-l 

T 


E 


7T 


T—l 


T 




Xq = X 


t=l 




16.7、 


类似的，对于 7 折扣累积奖赏有 


K ⑷= 乙如 ) E 0(U7W)). (16.8) 

aeA x f ex 

需注意的是，正是由于 i 3 和只已知，才可以进行全概率展开. 

读者可能已发现，用上面的递归等式来计算值函数，实际上就是一种动态 
规划算法.对于 vy , 可设想递归一直进行下去，直到最初的 起点； 换言之，从值 
函数的初始值出发，通过一次迭代能计算出每个状态的单步奖赏 Ff ， 进而 
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Vb ) 为: C 的累积奖赏. 
式 (16.7) 更新值函数. 


这个写法是为了便于在 
同样的算法框架下考虑 T 
步累积奖赏和7折扣累积 
奖赏. 


参见习题 16.2. 


输入： MDP 四元组五 = 〈 X ，為 P ， 丑〉； 

被评估的策略 7 T ; 

累积奖赏参数 T . 

过程： 

1: \/x E X : V(x) = 0; 

2: for t = 1,2,... do 

3: \/xeX ： V\x) = Y^aeA P x-,x' + 与 M〆)); 

4: if t = T 4-1 then 

5 ： break 
6: else 

7 ： V = V / 

8 ： end if 
9: end for 

输出：状态值函数 V " 


图 16.7 基于 T 步累积奖赏的策略评估算法 


从单步奖赏出发，通过一次迭代计算出两步累积奖赏……图 16.7 中算法遵 
循了上述流程，对于 r 步累积奖赏，只需迭代 T 轮就能精确地求出值函数. 


对于％,由于 y 在^很大时趋于0,因此也能使用类似的算法，只需将图 
16.7 算法的第3行根据式 (16.8) 进行替换.此外，由于算法可能会迭代很多次， 
因此需设置一个停止准则.常见的是设置一个阈值仏若在执行一次迭代后值函 
数的改变小于6> 则算法 停止； 相应的，图 16.7 算法第4行中的 t = T + 1需替 
换为 


m ^: \ V ( x ) — ^(^)1 


<0 . 


(16.9) 


有了状态值函数就能直接计算出状态-动作值函数 


Q 壬 (x,a) = 
Qj(x, a ) = 


E -pa 

r x ^ x ' 

x f ex 



x'ex 


d +7 W )). 


(16.10) 


16.3.2 策略改进. 

对某个策略的累积奖赏进行评估后，若发现它并非最优策略，则当然希望 
对其进行改进.理想的策略应能最大化累积奖赏 



arg max 

7T 


xex 


(16.11) 
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一个强化学习任务可能有多个最优策略，最优策略所对应的值函数称 
为最优值函数，即 

^ ixeX : V *( x ) = V ^{ x ). (16.12) 

注意，当策略空间无约束时式 (16.12) 的 V * 才是最优策略对应的值函数，例如对 
离散状态空间和离散动作空间，策略空间是所有状态上所有动作的组合，共有 
种不同的策略.若策略空间有约束，则违背约束的策略是“不合法”的， 
即便其值函数所取得的累积奖赏值最大，也不能作为最优值函数. 

由于最优值函数的累积奖赏值已达最大，因此可对前面的 Bellman 等 
式 (16.7) 和 (16.8) 做一个改动，即将对动作的求和改为取 最优： 


7 - X ， 




换言之, 


V*(x) = maxQ n \x,a), 
' aeA 


代入式 (16.10) 可得最优状态-动作值函数 


(16.13) 


(16.14) 


QU^^)= E 

x f ex ^ 


T-l 


■* ... 




= E x ^(^ + 7maxQ ； (^aO). 


16.15) 


上述关于最优值函数的等式，称为最优 Bellman 等式，其唯一解是最优值函数. 

最优 Bellman 等式揭示了非最优策略的改进方式：将策略选择的动作改变 
为当前最优的动作.显然，这样的改变能使策略更好.不妨令动作改变后对应的 
策略为/，改变动作的条件为 Q ^{ xy \ x )) > 以 7 折扣累积奖赏为例， 

由式 (16.10) 可计算出递推不等式 

V ' K { x ) ^ Q 1 t (x,tt i {x)) 
x f ex 





16.3 有模型学习 


381 



(16.16) 


值函数对于策略的每一点改进都是单调递增的，因此对于当前策略 7 T ， 可 
放心地将其改进为 • 

7 T ’ (: r ) = argmaxQ 71 " (: r ， a ), (16.17) 

aeA 

直到 7 T ， 与 tt 一致、不再发生变化，此时就满足了最优 Bellman 等式，即找到了 
最优策略. 

16.3.3 策略迭代与值迭代 

由前两小节我们知道了如何评估一个策略的值函数，以及在策略评估后如 
何改进至获得最优策略.显然，将这两者结合起来即可得到求解最优解的 方法: 
从一个初始策略(通常是随机策略)出发，先进行策略评估，然后改进策略，评估 
改进的策略，再进一步改进策略，……不断迭代进行策略评估和改进,直到策略 
收敛、不再改变为止.这样的做法称为“策略迭代” (policy iteration ). 

图 16.8 给出的算法描述,就是在基于 r 步累积奖赏策略评估的基础上，加 


| A ( rc )| A x 状态下所有 
可选动作数. 

式( I 6 . 7 )更新值函数. 


式 (16.10) 计算 Q 值. 


输入： MDP 四元组五=〈 X ,在 P ， 丑〉； 

累积奖赏参数: T . 

过程： 

1: MxeX : V(x) = 0, 7r(x,a) = j^yy; 

loop 

for t = 1,2,... do 


2 

3 

4 

5 

6 

7 

8 
9 

10 

11 

12 

13 

14 

15 

16 
17 


U ' v， { x ) = EaGA^ °) 

if t = T + 1 then 

break 
else 
V = V f 
end if 
end for 

\/x £ X : n^x) = arg max aGA Q(x, a); 
if Vx : ^{x) — 7r(x) then 
break 
else 

TV = TT f 

end if 
end loop 


)a 
x—^x 




l ,~i 


V(x f )) 


输出：最优策略 7 T 


图 16 . 8 基于 r 步累积奖赏的策略迭代算法 
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参见习题 16.3. 


式 (16.18) 更新值函数. 


式 (16.10) 计算 Q 值. 


入策略改进而形成的策略迭代算法.类似的，可得到基于7折扣累积奖赏的策 
略迭代算法.策略迭代算法在每次改进策略后都需重新进行策略评估，这通常 
比较耗时. 

由式 (16.16) 可知，策略改进与值函数的改进是一致的，因此可将策略改进 
视为值函数的改善，即由式 (16.13) 可得 

| 吟 ㈤= ir R x^ + ； （ 16 18 ) 

1 V l( X ) = max aGA P x^ ( R x^ + 外 (〆)) . 

于是可得到值迭代 (value iteration ) 算法，如图 16.9 所示. 


输入： MDP 四元组五:- 〈 X, 為 用； 
累积奖赏参数 T ; . 

收敛阈值6> . 

过程： 

1 ： \/x e X ： V(x) = o ； 

2 ： for t = 1,2, ... do 

3 ： Vx e.X : V f (x) = max aeA ^2 x , eX P^_ 

4: if | V ( rr ) — V r {x)\ < 9 then 

5 ： break 

6 ： else 

7： V = V r 

8: end if 

9: end for 

输出：策略 7 r ( x ) = argmax aeA Q ( z , a ) 


. [\ K - 


t-i 


V(x f )) 


图 16.9 基于 r 步累积奖赏的值迭代算法 
若采用7折扣累积奖赏，只需将图 16.9 算法中第3行替换为 


yxex ： v\x) 


= max 

<xG-A 


pa 

/ j 1 - x -^ x ' 

x r ex 


(U 7~)) • 


(16.19) 


从上面的算法可看出，在模型已知时强化学习任务能归结为基于动态规划 
的寻优问题.与监督学习不同，这里并未涉及到泛化能力，而是为每一个状态找 
到最好的动作. 

16.4 免模型学习 

在现实的强化学习任务中，环境的转移概率、奖赏函数往往很难得知，甚 
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亦称“无模型学习 


蒙特卡罗方法参见 14.7 
节； 14.5.1 节中使用过马尔 
可夫链蒙特卡罗方法. 


至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模，则称为 
“免模型学习” （ model-free learning )， 这比有模型学习要困难 得多. 

16.4.1 蒙特卡罗强化学习 

在免模型情形下，策略迭代算法首先遇到的问题是策略无法评估，这是由 
于模型未知而导致无法做全概率展开.此时，只能通过在环境中执行选择的动 
作，来观察转移的状态和得到的奖赏.受 K 摇臂赌博机的启发，一种直接的策 
略评估替代方法是多次“采样”，然后求取平均累积奖赏来作为期望累积奖赏 
的近似，这称为蒙特卡罗强化学习.由于采样必须为有限次数，因此该方法更适 
合于使用： T 步累积奖赏的强化学习任务. 

另一方面，策略迭代算法估计的是状态值函数 [ 而最终的策略是通过状 
态-动作值函数 Q 来获得.当模型已知时，从 V 到 Q 有很简单的转换方法，而 
当模型未知时，这也会出现困难.于是，我们将估计对象从 F 转变为 Q , 即估计 
每一对“状态-动作”的值函数. 

此外，在模型未知的情形下，机器只能是从一个起始状态(或起始状态集 
合)开始探索环境，而策略迭代算法由于需对每个状态分别进行估计，因此在这 
种情形下无法实现.例如探索种瓜的过程只能从播下种子开始，而不能任意选 
择种植过程中的一个状态开始.因此，我们只能在探索的过程中逐渐发现各个 
状态并估计各状态-动作对的值函数. 

综合起来，在模型未知的情形下，我们从起始状态出发，使用某种策略进行 
采样，执行该策略 T 步并获得轨迹 

< 卻，⑼， ri, xi, ai ， 7*2,…, xt-i, >, 

然后，对轨迹中出现的每一对状态-动作，记录其后的奖赏之和，作为该状态-动 
作对的一次累积奖赏采样值.多次釆样得到多条轨迹后，将每个状态-动作对的 
累积奖赏采样值进行平均，即得到状态-动作值函数的估计. 

可以看出，欲较好地获得值函数的估计，就需要多条不同的采样轨迹.然 
而，我们的策略有可能是确定性的，即对于某个状态只会输出一个动作，若使用 
这 样的策略进行采样，则只能得到多条相同的轨迹.这与 K 摇臂赌博机的“仅 
利用”法面临相同的问题，因此可借鉴探索与利用折中的办法，例如使 用 e -贪 
心法，以 e 的概率从所有动作中均勻随机选取一个，以1 - e 的概率选取当前最 
优动作.我们将确定性的策略 I 称为“原始策略”，在原始策略上使用 e - 贪心 
法的策略记为 
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假定只有一个最优动作. 


默认均勾 概 •率 选取动作. 
采样第 s 条 轨迹. 

对每一个状态-动作对. 
计算轨迹中的累积奖赏. 
式 (16.2) 更新平均奖赏. 


根据值函数得到策略. 


W € (x) 


7r(x), 以概率 1 一 

A 中以均匀概率选取的动作，以概率 e . 


(16.20) 


对于最大化值函数的原始策略 7 T = argmax a Q (: c ， a )， 其 e - 贪心策略 7 r e 中，当前 
最优动作被选中的概率是1 - e + #，而每个非最优动作被选中的概率是 A . 
于是，每个动作都有可能被选取，而多次采样将会产生不同的采样轨迹. 

与策略迭代算法类似，使用蒙特卡罗方法进行策略评估后，同样要对策 
略进行改进.前面在讨论策略改进时利用了式 (16.16) 揭示的单调性，通过换 
入当前最优动作来改进策略.对于任意原始策略 7 T ， 其 e - 贪心策略 tt € 仅是将 
e 的概率均匀分配给所有动作，因此对于最大化值函数的原始策略同样有 
Q^( Xl 7r f (x)) > V^x), 于是式 (16.16) 仍成立，即可以使用同样方法来进行策略 
改进. 


图 16.10 给出了上述过程的算法描述，这里被评估与被改进的是同一个策 
略，因此称为“同策略” （ on - policy ) 蒙特卡罗强化学习算法.算法中奖赏均值 
采用增量式计算，每釆样出一条轨迹，就根据该轨迹涉及的所有“状态-动作” 
对来对值函数进行更新. 


输入：环境 

动作空间4 
起始状态 r 0 ; 

策略执行步数 T . 

过程： 

1: Q(x, a) = 0, count(x, a) = 0, n(x, a) = 

2 ： for s = 1,2,... do 

3: 在 E 中执行策略 7 T 产生轨迹 

< xq , a 0 , ri , xi , ai , r 2 ,..., x T -i,a T -ur T , x T >； 


以概率 1 — e ; 
以概率 e . 


图 16.10 同策略蒙特卡罗强化学习算法 


4: 


5 

6 

7 

8 
9 


for t = 0,1, ... ,T — 1 do 


R 


T-t r i .， 

n \ — Q(x t ,at)xconnt(xt,at)+R. 

t) — countfrr+.an + l , 


count (xt, at )+1 

count (: r t ， a t ) = count a t ) + 1 

end for 

对所有已％状态 x : 

arg max a , Q(x, a ’)， 

以均匀概率从 A 中选取邊作. 

V 

10: end for 

输出：策略 TT 


7r(x, a) 
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同策略蒙特卡罗强化学习算法最终产生的是 e - 贪心策略.然而，引入 e •贪 
心是为了便于策略评估，在使用策略时并不需要 e - 贪心；实际上我们希望改进 
的是原始(非 e - 贪心)策略.那么，能否仅在策略评估时引入 e - 贪心，而在策略改 
进时却改进原始策略呢？ 

这其实是可行的.不妨用两个不同的策略 7 T 和 7 I 7 来产生采样轨迹，两者的 
区别在于每个“状态-动作对”被采样的概率不同. 一 般的，函数/在概率分布 
p 下的期望可表达为 

E [/] = f p ( x ) f ( x)dx , (16.21) 

Jx 

可通过从概率分布 p 上的采样 { a ： i , x 2 , 来估计/的期望，即 

(16.22) 


若引入另一个分布 A 则函数/在概率分布 p 下的期望也可等价地写为 


E[/ 卜/， ⑷繁 | /( 眷 


(16.23) 


上式可看作在分布 g 下的期望，因此通过在 g 上的采样 
X f 2 , . . . ,3^} 可估计为 

_ 卜 ㈤. 24 ) 

i=l 

回到我们的问题上来，使用策略 7 T 的采样轨迹来评估策略 7 T ， 实际上就是 
对累积奖赏估计期望 

1 m 

Q ( x , a ) = 一 ri . (16.25) 

m ^ 

2=1 

若改用策略 7/ 的采样轨迹来评估策略 TT ， 则仅需对累积奖赏加权，即 


这样基于一个分布的 
采样来估计另一个分布 
下的 期望， 称为重要性采 
样 (importance sampling ). 


Q ( x , a ) = 



(16.26) 


其中 if 和 if ' 分别表示两个策略产生第《条轨迹的概率.对于给定的一条轨 
迹〈邱， do , /!，•••， XT - 1 , CbT - l , r T , X T ), 策略 7T 产生该轨迹的概率为 


T —1 

= n a i ) p ^ i + i - (16.27) 
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虽然这里用到了环境的转移概率 P ^ Xi+v 但式 (16.24) 中实际只需两个策略概 


率的比值 

P 71 __ pT 7T(Xj,ai) 

= fJ 7 T f { x h ai ) 


(16.28) 


若 TT 为确定性策略而/是 7 T 的 €- 贪心策略，则 7r(Xi,ai) 始终为 1， 77’ (Xi ， CLi) 
为命或 1- e +命， 于是就能对策略 7 T 进行评估了.图 16.11 给出了 “异策 
略” ( off - policy ) 蒙特卡罗强化学习算法的描述. 


默认均匀概率选取动作. 
采样第 S 条轨迹 • 


重要性采样系数. 

计算修正的累积奖赏. 
式 (16.2) 更新平均奖赏 

根据值函数得到策略. 


输入： 环境 

动作空间 
起始状态抑)； 

策略执行步数 T . 

过程： 

1: Q(x, a) = 0, count(x, a) = 0, n{x^a) = 

2: for 5 = 1,2,... do 

3： 在五中执行 7 T 的 e - 贪心策略产生轨迹 


4: pi 


7 

8 
9 

10 

11 


< - - . ,XT-i,ar-i,rT,^T >； 

1 一 € + c/|^4|, CLi = 7r(x)5 

for t = 0,1,... ,T — 1 do 


T—t 十 iv 6 x ±.j=i pj 

r\(rr> n \ — Q(xt,at)xcount(x ti at)-i-R 
- count(;r t ,a t )+l 

count (a ： t, a t ) = count a t ) + 1 

end for 

7r(x) = arg max a / Q(x, a f ) 

end for 


输出：策略 7 T 


图 16.11 异策略蒙特卡罗强化学习算法 


16.4.2 时序差分学习 

蒙特卡罗强化学习算法通过考虑釆样轨迹，克服了模型未知给策略估计造 
成的困难.此类算法需在完成一个采样轨迹后再更新策略的值估计，而前面介 
绍的基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函 
数更新.两者相比，蒙特卡罗强化学习算法的效率低得多，这里的主要问题是 
蒙特卡罗强化学习算法没有充分利用强化学习任务的 MDP 结构.时序差分 
(Temporal Difference , 简称 TD ) 学习则结合了动态规划与蒙特卡罗方法的思 
想，能做到更高效的免模型学习. 

蒙特卡罗强化学习算法的本质，是通过多次尝试后求平均来作为期望累 
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将这几个英文单词的首 
字母连起来. 


积奖赏的近似，但它在求平均时是“批处理式”进行的，即在一个完整的采 
样轨迹完成后再对所有的状态-动作对进行更新.实际上这个更新过程能增 
量式进行.对于状态-动作对不妨假定基于 t 个采样已估计出值函数 
QU ^ a ) = ] 则在得到第 t + 1个采样 n +1 时，类似式( I 6 . 3 )，有 

Qt +1 (x,a) = Qt( x ^ a ) + (n+i-Qt( x ^ a ))- (16.29) 

显然，只需给 QU^^) 加上增量 击 (r t+ i - Q ^ t { x , a )) 即可. 更一般的，将击 
替换为系数 a t +1 ， 则可将增量项写作 a t + l { r t+1 - Q ^ t { x , a )). 在实践中通常令 
为一个较小的正数值 a , 若将 Qf ( x , a ) 展开为每步累积奖赏之和，则可看出 
系数之和为1，即令 at = a 不会影响是累积奖赏之和这一性质.更新步长 a 
越大，则越靠后的累积奖赏越重要. 

以7折扣累积奖赏为例，利用动态规划方法且考虑到模型未知时使用状 
态-动作值函数更方便，由式 (16.10；) 有 

Q^( Xl a)= 心 (U7[V)) 

x^X 

= P ^ f + 7 X ] (16.30) 

通过增量求和可得 

Qt +l {x,a) = Q\{x, a) + a {R a x ^ xf + ^Qt (x\ a f ) - Ql{x, a )) , (16.31) 

其中 V 是前一次在状态: r 执行动作 a 后转移到的状态， Y 是策略 7 T 在/上选 
择的动作. 

使用式 (16.31), 每执行一步策略就更新一次值函数估计，于是得到图 16.12 
的算法.该算法由于每次更新值函数需知道前一步的状态 ( state )、 前一步的动 
作 ( action )、 奖赏值 ( reward )、 当前状态 ( state )、 将要执行的动作 ( action ), 由 
此得名为 Sarsa 算法 [Rummery and Niranjan ，1994]. 显然 ， Sarsa 是一个同策 
略算法，算法中评估(第6行)、执行(第5行)的均为 e - 贪心策略. 

将 Sarsa 修改为异策略算法，则得到图 16.13 描述的 Q - 学习 ( Q - leaming ) 算 
法 [Watkins and Dayan , 1992], 该算法评估(第6行)的是 e - 贪心策略,而执行(第 
5行)的是原始策略. 
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默认均匀概率选取动作. 


单步执行策略. 

原始策略的 e - 贪心策略. 
式 (16.31) 更新值函数 ■ 


输入： 环境 

动作空间 A ; 

起始状态0： 0 ; 

奖赏折扣7; 

更新步长 a . 

过程： 

1: Q(x,a) = 0, 7r(^,a) = ]^yy; 

2: x = xo , a = 7 r ( x ); 

3: for t 二 1, 2, ... do 

4: r，V = 在 E 中执行动作 a 产生的奖赏与转移的 状态; 

5: o ! = 7 r e ( x f ); 

6： Q { x , a ) = Q ( x , a ) + a{r + jQ ( x f , a f ) - Q ( x , a )); 

7: 7 r ( x ) = argmax a „ Q { x ^ a ,r )\ 

8 : x — x\a = a f 

9: end for 

输出： 策略 7 T 


默认均句概率选取动作. 


单步执行策略. 

原始策略. 

式 (16.31) 更新值函数. 


图 16.12 Sarsa 算法 


输入： 环境五； 

动作空间 
起始状态 x 0 ; 

奖赏折扣 7; 

更新步长 Q ；. 

过程： 

Q ( x ^ a ) = 0, 7 r ( x , a ) : 

2： x = x 0 ; 

3: for t = 1,2, ... do 

4: r , 〆 = 在五 中执行动作 7 r e ( x ) 产生的奖赏与转移的状态; 

a! = 7r(a/); 


W^T\ 


6 ： Q(x,a) = Q(x, a) + a(r + jQ(x f ,a f ) - Q(x, a)) 
7: 7 ： (x) — arg max a // Q(x, a ,r )\ 

8: x = x\ a = a r 

9： end for 

输出： 策略 7 T 


图 16.13 Q - 学习算法 


16.5 值函数近似 

前面我们一直假定强化学习任务是在有限状态空间上进行，每个状态可 
用一个编号来指代；值函数则是关于有限状态的“表格值函数” (tabular value 
function ), 即值函数能表示为一个数组,输入 i 对应的函数值就是数组元素 i 的 
值，且更改一个状态上的值不会影响其他状态上的值.然而，现实强化学习任务 






16.5 值函数近似 


所面临的状态空间往往是连续的，有无穷多个状态.这该怎么办呢? 
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一 个直接的想法是对状态空间进行离散化，将连续状态空间转化为有限离 
散状态空间，然后就能使用前面介绍的方法求解.遗憾的是，_如何有效地对状态 
空间进行离散化是一个难题，尤其是在对状态空间进行探索之前. 

实际上，我们不妨直接对连续状态空伺的值函数进行学习.假定状态空间 
为 n 维实数空间 X = R n , 此时显然无法用表格值函数来记录状态值.先考虑简 
单情形，即值函数能表达为状态的线性函数 [Busoniu et al ., 2010] 

V e ( x ) = 0 T x , (16.32) 

其中 a ? 为状态向量 ，（9 为参数向量.由于此时的值函数难以像有限状态那 
样精确记录每个状态的值，因此这样值函数的求解被称为值函数近似 (value 

近似程 


(16.33) 


(16.34) 


(16.35) 

、我们并不知道策略的真实值函数但可借助时序差分学习，基于 
V ^( x )= r -^ 7 ^(^) 用当前估计的值函数代替真实值函数，即 

6 = 0-}- a(r + ^Ve{x f ) — Vq{x)) x 
= 6 a(r + r yO T x , — 0 T x ) x , (16.36) 


function approximation ). 

我们希望通过式 (16.32) 学得的值函数尽可能近似真实值函数 
度常用最小二乘误差来度量： 

E e = E x ^[( V ^( x )- V e ( x )) 2 '\ , 

其中表示由策略 tt 所釆样而得的状态上的期望. 

为了使误差最小化,釆用梯度下降法,对误差求负导数 

[事 ㈤ -脉 ))^1^ 

= E x ^[2( V 7 r { x )- V e { x )) x ] , 

于是可得到对于单个样本的更新规则 

0 = 6 -\- a { V ， K { x ) — Ve ( x )) x . ^ 
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核方法参见第6章. 


原始策略的 €- 贪心策略. 
式 (16.36) 更新参数. 


亦称“学徒学习” 

(apprenticeship learning ), 
“示范学习” (learning 
from demonstration ), “观 
察学习” (learning by 
watching ); 与机器学习早 
期的“示教学习”有直接 
联系，参见 1.5 节. 


其中分是下一时刻的状态. 

需注意的是，在时序差分学习中需要状态-动作值函数以便获取策略.这里 
一种简单的做法是令0作用于表示状态和动作的联合向量上，例如给状态向量 
增加一维用于存放动作编号，即将式 (16.32) 中的 cc 替换为 ( cc ; a ); 另一种做法是 
用0/1对动作选择进行编码得到向量 a = (0;... ; 1; ... ;0),其中“1”表示该动 
作被选择，再将状态向量与其合并得到 （ x ; a )， 用于替换式 (16.32) 中的这样 
就使得线性近似的对象为状态-动作值函数. 

基于线性值函数近似来替代 Sarsa 算法中的值函数，即可得到图 16.14 的 
线性值函数近似 Sarsa 算法.类似地可得到线性值函数近似 Q - 学习算法.显然， 
可以容易地用其他学习方法来代替式 (16.32) 中的线性学习器，例如通过引入核 
方法实现非线性值函数近似. 


输入：环境五； 

动作空间 
起始状态 
奖赏折扣 7; 

更新步长 a. 

过程： 

1： 0 = 0 ', 

2 ： x = cco, a = tt(x) = arg max a // 6 T (x^ a"); 

3: for t = 1,2,... do 

4 ： = 在五 中执行动作 a 产生的奖赏与转移的状态 ; 

5: a' — 7r e (cc / ); 

6 ： 0 = 0 -{- a(r + / y6 T (x f ; a') — 0 T (x] a))(cc; a); 

7: tt(x) — argmax a // 6 T (x\ a ff ); 

8: x — x\a — o! 

9 ： end for 

输出： 策略 TT 


图 16.14 线性值函数近似 Sarsa 算法 


16.6 模 仿学习 

在强化学习的经典任务设置中，机器所能获得的反馈信息仅有多步决策后 
的累积奖赏，但在现实任务中，往往能得到人类专家的决策过程范例，例如在种 
瓜任务上能得到农业专家的种植过程范例.从这样的范例中学习，称为“模仿 
学习” (imitation learning ). 




16.6 模仿学习 
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16.6.1 直接模仿学习 

强化学习任务中多步决策的搜索空间巨大，基于累积奖赏来学习很多步之 
前的合适决策非常困难，而直接模仿人类专家的“状态-动作对”可显著缓解这 
一 困难，我们称其为“直接模仿学习” . 

假定我们获得了一批人类专家的决策轨迹数据 { n , r m } 5 每条轨迹 
包含状态和动作序列 


n = 〈5 W 2 ,4，".，4 i+1 〉， 

其中~ 为第 i 条轨迹中的转移次数. 

有了这样的数据，就相当于告诉机器在什么状态下应选择什么动作，于是 
可利用监督学习来学得符合人类专家决策轨迹数据的策略. 

我们可将所有轨迹上的所有“状态-动作对”抽取出来，构造出一个新的数 

据集合 

D = {(si, ai) 5 (s 2 , a 2 ) 5 ..., (5^^ m^Y：Zi ^ 

即把状态作为特征，动作作为 标记； 然后，对这个新构造出的数据集合乃使用 
分类(对于离散动作)或回归(对于连续动作)算法即可学得策略模型.学得的这 
个策略模型可作为机器进行强化学习的初始策略，再通过强化学习方法基于环 
境反馈进行改进，从而获得更好的策略. 


16.6.2 逆强化学习 

在很多任 务中， 设计奖赏函数往往相当困难，从人类专家提供的范例数据 
中反推出奖赏函数有助于解决该问题，这就是逆强化学习 (inverse reinforce ¬ 
ment learning ) [Abbeel and Ng , 2004]. 

在逆强化学习中，我们知道状态空间 X 、动作空间 A 并且与直接模仿学 
习类似，有一个决策轨迹数据集彳逆强化学习的基本思想 是：欲 
使机器做出与范例一致的行为，等价于在某个奖赏函数的环境中求解最优策略, 
该最优策略所产生的轨迹与范例数据一致.换言之，我们要寻找某种奖赏函数 
使得范例数据是最优的，然后即可使用这个奖赏函数来训练强化学习策略. 

不妨假设奖赏函数能表达为状态特征的线性函数，即 R ( x )= W T X. 于是， 
策略 7 T 的累积奖赏可写为 



-+QO 

^2^R{x t ) 

_t=0 



'+00 1 

二 E 


7 T 


- 
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= w t E 



^2 ^ txt I n 

t=o 


(16.37) 


即状态向量加权和的期望与系数 w 的内积. 

将状态向量的期望 E [ES I tt ] 简写为念' 注意到获得^ r 需求取期 
望.我们可使用蒙特卡罗方法通过采样来近似期望，而范例轨迹数据集恰可看 
作最优策略的一个采样，于是，可将每条范例轨迹上的状态加权求和再平均，记 
为对于最优奖赏函数 R ( x ) = w ^ T x 和任意其他策略产生的^ r ，有 




X 71- ) ^ 0 . 


(16.38) 


若能对所有策略计算出 ( x *-^), 即可解出 



= arg max 



minw T ( x * — x ^) 

丌 、 


s . t . 



彡1 


(16.39) 


显然，我们难以获得所有策略， 一 个较好的办法是从随机策略开始，迭代地 
求解更好的奖赏函数，基于奖赏函数获得更好的策略，直至最终获得最符合范 
例轨迹数据集的奖赏函数和策略，如图 16.15 算法所示.注意在求解更好的奖 
赏函数时，需将式 (16.39) 中对所有策略求最小改为对之前学得的策略求最小. 


输入： 环境 

状态空间 X ; 

动作空间 

范例轨迹数据集 D 

过程： 


1： f 二从范例轨迹中算出状态加权和的均值向量； 

2： 7 T =随机策略； 

3: for t = 1，2,… do 

4：免 f =从 7 T 的采样轨迹算出状态加权和的均值向量； 

5： 求解 = argmax ^ min ^! w T ( x * — xj ) s . t . || iy || ^ 1; 
6: tt = 在环境〈 X ， A , R ( x ) =~ w * T x ) 中求解最优 策略； 

7: end for 


输出：奖赏函数 R ( x ) = W* T X 与策略 7 T 



图 16.15 迭代式逆强化学习算法 



16.7 阅读材料 


16.7 阅读材料 
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强化学习专门书籍中最著名的是 [Sutton and Barto , 1998]. [ Gosavi , 2003] 
从优化的角度来讨论强化学习， [ Whiteson , 2010] 则侧重于介绍基于演化算法 
搜索的强化学习方法 . [Mausam and Kolobov , 2012] 从马尔可夫决策过程的视 
角介绍强化学习 ， [Sigaud and Buffet , 2010] 覆盖了很多内容，包括本章未介绍 
的部分可观察马尔可夫决策过程 (Partially Observable MDP , 简称 POMDP )、 
策略梯度法等.基于值函数近似的强化学习可参阅 [Busoniu et al , 2010]. 

欧洲强化学习研讨会 ( EWRL ) 是专门性的强化学习系列研讨会，多学科强 
化学习与决策会议 ( RLDM ) 则是从2013年开始的新会议. 

[Kaelbling et al ., 1996] 是一个较早的强化学习综述 ， [Kober et al ., 2013; 
Deisenroth et al ., 2013] 则综述了强化学习在机器人领域的应用. 

[Kuleshov and Precup , 2000] 和 [Vermorel and Mohri , 2005] 介绍了 多种 
摇臂赌博机算法并进行了比较.多摇臂赌博机模型在统计学领域有大量研 
究 [Berry and Fristedt , 1985], 近年来在“在线学习” (online learning )、 “对 
抗学习 ” (adversarial learning ) 等方面有广泛应用 ， [Bubeck and Cesa - Bianchi , 
2012 ] 对其“悔界 ” （regret bound ) 分析方面的结果进行了 综述. 

时序差分 ( TD ) 学习最早是 A . Samuel 在他著名的跳棋工作中提出， 
[ Sutton , 1988] 提出了 TD ( A ) 算法，由于 [ Tesauro , 1995] 基于 TD ( A ) 研制的 
TD - Gammon 程序在西洋双陆棋上达到人类世界冠军水平而使 TD 学习备受 
关注. Q - 学习算法是 [Watkins and Dayan , 1992] 提出， Sarsa 则是在 Q - 学习算 
法基础上的改进 [Rummery and Niranjan , 1994]. TD 学习近年来仍有改进和 
推广，例如广义 TD 学习 [Ueno et al ., 2011]、使用资格迹 (eligibility traces ) 的 
TD 学习 [Geist and Scherrer , 2014] 等 . [Dann et al ., 2014] 对 TD 学习中的策略 
评估方法进行了比较. 

模仿学习被认为是强化学习提速的重要手段 [ Lin , 1992; Price and Boutili - 
er , 2003], 在机器人领域被广泛使用 [Argali et al ., 2009]. [Abbeel and Ng , 2004; 
Langford and Zadrozny , 2005] 提出了逆强化学习方法. 

在运筹学与控制论领域，强化学习方面的研究被称为“近似动态规 
划” (approximate dynamic programming ) ,可参阅 [ Bertsekas ，2012]. 


“后悔” （ regret ) 是指在 
不确定性条件下的决策与 
确定性条件下的决策所获 
得的奖赏间的差别. 

Samuel 跳棋工作参见 
P.22. 
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习题 



1 6 章强化学习 


16.1 用于欠-摇臂赌博机的 UCB (Upper Confidence Bound ， 上置信界)方 
法每次选择 Q ㈨ + UC ( k ) 最大的摇臂，其中 Q ( k ) 为摇臂 A 当前的平 
均奖赏， UC ( k ) 为置信 区间. 例如 



其中 n 为已执行所有摇臂的总次数，为已执行摇臂 A : 的次数.试比 
较 UCB 方法与 e - 贪心法和 Softmax 方法的异同. 

16.2 借鉴图 16.7, 试写出基于7折扣奖赏函数的策略评估算法. 

16.3 借鉴图 16.8, 试写出基于7折扣奖赏函数的策略迭代算法. 

16.4 在没有 MDP 模型时，可以先学习 MDP 模型(例如使用随机策略进行 
采样，从样本中估计出转移函数和奖赏函数)，然后再使用有模型强化 
学习方法.试述该方法与免模型强化学习方法的优缺点. 

16.5 试推导出 Sarsa 算法的更新公式 (16.31). 

16.6 试借鉴图 16.14 给出线性值函数近似 Q - 学习算法. 

16.7 线性值函数近似在实践中往往有较大误差.试结合 BP 神经网络，将 
线性值函数近似 Sarsa 算法推广为使用神经网络近似的 Sarsa 算法. 

16.8 试结合核方法，将线性值函数近似 Sarsa 算法推广为使用核函数的非 
线性值函数近似 Sarsa 算法. 

16.9 对于目标驱动 ( goal - directed ) 的强化学习任务，目标是到达某一状态， 
例如将汽车驾驶到预定位置.试为这样的任务设置奖赏函数，并讨论 
不同奖赏函数的作用(例如每一步未达目标的奖赏为0、-1或 1). 

16.10* 与传统监督学习不同，直接模仿学习在不同时刻所面临的数据分布可 
能不同.试设计一个考虑不同时刻数据分布变化的模仿学习算法. 
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切比雪夫在圣彼得堡大 
学培养出马尔可夫、李亚 
普诺夫、柯尔金、格拉维 
等著名数学家，还影响了 
圣彼得堡大学之外的很多 
数学家.圣彼得堡学派标 
志着俄罗斯数学走到了世 
界前沿. 


小故事：马尔可夫决策过程与安德烈•马尔可夫 

安德烈 • 安德烈维奇 • 马尔可夫 (Andrey Andreyevich 
Markov , 1856— 1922) 是著名俄罗斯数学家、圣彼得堡数学 
学派代表性人物，在概率论、数论、函数逼近论、微分方程 
等方面有重要贡献. ， 

马尔可夫出生在莫斯科东南的梁赞 ( Ryazan ), 17 岁时 
独立发现了一种线性常微分方程的解法，引起了圣彼得堡大学几位数学家的注 
意. 1874 年他考入圣彼得堡大学数学系， 1878 年毕业并留校任教， 1884 年获博 
士学位，导师是圣彼得堡学派领袖、著名数学家切比雪夫.此后马尔可夫一直 
在圣彼得堡大学任教.马尔可夫在早期主要是沿着切比雪夫开创的方向，改进 
和完善了大数定律和中心极限定理，但他最重要的工作无疑是开辟了随机过程 
这个领域.他在 1906—1912 年间提出了马尔可夫链，开创了对马尔可夫过程的 
研究.现实世界里小到分子的布朗运动、大到传染病流行过程，马尔可夫过程 
几乎无所不在.在他的名著《概率演算》中，马尔可夫是以普希金的长诗《叶 
甫根尼•奥涅金》中元、辅音字母变化的规律为例来展示马尔可夫链的性质. 
马尔可夫决策过程是马尔可夫过程与确定性动态规划的结合,基本思想在二十 
世纪五十年代出现，此时马尔可夫已去世三十多年了. • 



马尔可夫的儿子也叫安德烈 • 安德烈维奇•马尔可夫 (1903 — 1979), 也是 
著名数学家，数理逻辑中的“马尔可夫原则 ” （Markov Principle ) 、 “马尔可夫 
规则 ” （Markov Rule )， 理论计算机科学中图灵完备的“马尔可夫算法”等，是 
以小马尔可夫的名字命名的.马尔可夫的弟弟弗拉基米尔 • 安德烈维奇 • 马尔 
可夫 (1871 — 1897) 也是一位数学家，“马尔可夫兄弟不等式”就是以他和哥哥 
安德烈的名字命名的. 





A 矩阵 

A.l 基本演算 


常直接用 I 表示单位阵. 


记实矩阵 A e 第 i 行第 j 列的元素为 ( A )^- = Aij . 矩阵 A 的转 
置 ( transpose ) 记为 A t , ( A T )ij = Aji ， 显然， 

(A + B) T = A T + B T ， ( A . l ) 

( AB)t = B t A t . ( A .2) 

对于矩阵 A e M mxn , 若 m = n 则称为 n 阶方阵.用 I n 表示 n 阶单位阵，方阵 
A 的逆矩阵 A - 1 满足 AA -1 = A -1 A = I . 不难发现， 


( A t ) _1 = ( A - 1 )' ( A .3) 

( AB )— 1 = B — 1 A -1 • ( A .4) 


对于 n 阶方阵 A ， 它的迹 ( tr . ace ) 是主对角线上的元素之和，即 tr ( A ) - 


EZ=i A n- 迹有如下性质： 

tr ( A T ) = tr ( A ) ， ( A .5) 

tr(A + B ) = tr ( A ) + tr ( B ) , ( A .6) 

tr ( AB ) = tr ( BA ) , ( A .7) 

tr ( ABC ) = tr ( BCA ) = tr ( CAB ) . ( A .8) 

n 阶方阵 A 的行列式 ( determinant ) 定义为 


det ( A ) — 


par ( cr ) Ai cri A 2(J2 • • • A lan , 


creSn 


( A .9) 


其中 Sn 为所有 n 阶排列 ( permutation ) 的集合， par ( cr ) 的值为 -1 或 +1 取决 
于 cr = (cri,(j 25 ...,cr n ) 为奇排列或偶排列，即其中出现降序的次数为奇数或偶 



数，例如 (1,3,2) 中降序次数为1， (1,4, 3, 2) 中降序次数为 2. 对于单位阵，有 
det ( I ) = 1.对于 2 阶方阵 ，有 


det ( A ) = det ( ^ = ^ n ^-22 — A12A.21 

V]21 A 22 J 一 ‘ 一 


阶方阵 A 的行列式有如下 性质: 


det ( cA ) = c n det ( A ) , 
det ( A T ) = det ( A ), 
det ( AB ) = det ( A ) det ( B ) ， 
det ( A -1 ) = det ( A ) - 1 ， 
det ( A n ) = det ( A) n . 


( A .10) 
( A . ll ) 
( A .12) 
( A .13) 
( A _. 14) 


矩阵 A € E mxn 的 Probenius 范数定义为 


A . jp = ( tr ( A T A )) 


EE4 

n *1 /% — "1 


容易看出，矩阵的 Frobenius 范数就是将矩阵张成向量后的 L 2 范数. 


( A .15) 


A .2 导数 

向量 a 相对于标量; r 的导数 ( derivative )， 以及 x 相对于 < 2 的导数都是向 
量，其第 i 个分量分别为 


da \ 

dx) 



— d<H 

i ~ dx ’ 

( A .16) 

dx 

( A .17) 

i dai • 


类似的，矩阵 A 对于标量 r 的导数，以及 z 对于 A 的导数都是矩阵，其第 
行第 j 列上的元素分别为 


dA \ 

9 x ) 


dAij 

dx 


: A .18) 




A 矩阵 


dx 


401 


a 相对于 


dx 


dA Jij dA ij * 


(A.19) 


对于函数 f(X), 假定其对向量的元素可导，则 f ( x ) 关于的一阶导数是 
•个向量，其第 i 个分量为 


:▽/(*) 


df ( x ) 

dxi 


(A.20) 


f ( x ) 关于 a? 的二阶导数是称为海森矩阵 (Hessian matrix) 的一个方阵，其第 i 
行第 j 列上的元素为 

d 2 f ( x ) 


(V 2 / ㈤) 


^ dxidx 


3 


(A.21) 


向量和矩阵的导数满足乘法法贝 ll(product rule) 


C 为常向量. 


dx T a da T x 


dx 


dx 


dAB aA B + A aB 


dx dx 


dx 


(A.22) 

(A.23) 


由 = I 和式 (A.23)， 逆矩阵的导数可表示为 


0 A ' 


1 


dx 


A 


-i 5A A — 1 


dx 


(A.24) 


若求导的标量是矩阵 A 的元素，则有 

9tr(AB) 

dAij 

9tr(AB) 

dA 


Bji 


b t 


(A.25) 


(A.26) 


进而有 


9tr(A T B) 

dA 

dtx ( A ) 

dA 

9tr(ABA T ) 

dA 


B 


a(b + b t ) 


(A.27) 

(A.28) 


(A.29) 
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常将奇异值按降序排列 
以确保 S 的唯一性. 

当 A 为对称正定矩阵 
时，奇异值分解与特征值 
分解结果相同. 


由式 (A.15) 和 (A.29 ) 有 


gjjAjjl 

dA 


9tr(AA T ) 
^~ dA ~~ 


= 2A . 


(A.30) 


链式法则 (chain rule) 是计算复杂导数时的重要工具 . 简 单地说 _ ，若函数 / 
是分和 /i 的复合，即 f(x) — g{h ㈤ )，则有 


df(x) dg (h (x)) dh(x) 
dx dh(x) dx 

例如在计算下式时，将 A® - b 看作一个整体可简化 计算： 

l、Ax — b) T W(Ax - b) = 外 ^ 7 … . 2W{Ax - b) 

= 2 AW (Ax — b ). 


(A.31) 


(A.32) 


A.3 奇异值分解 

任意实矩阵 A e M mxn 都可分解为 


A = UEV T ， (A.33) 

其中 ， U G M mxm 是满足 U T U = I 的 m 阶酉矩阵 (unitary matrix); V G M nxn 
是满足 V T V = I 的 n 阶酉矩阵 ； E G R mxn 是 mxn 的矩阵，其中 (E)u = ^ 
且其他位置的元素均为 0 ,内为非负实数且满足 <71 > (72 > 彡 0. 

式 (A.33) 中的分解称为奇异值分解 (Singular Value Decomposition , 简称 
SVD) ， 其中 U 的列向量％ e R m 称为 A 的左奇异向量 (left-singular vector), 
V 的列向量切 G R n 称为 A 的右奇异向量 (right-singular vector), Gi 称为奇异 
值 (singular value). 矩阵 A 的秩 (rank) 就等于非零奇异值的个数 . * 

奇异值分解有广泛的用途，例如对于低秩矩阵近似 €low-i^ank matrix ap- 
proximation) 问题，给定一个秩为 r 的矩阵 A ， 欲求其 最优 & 秩近似矩阵 X, 
该问题可形式化为 

〜 min || A — A\\f (A.34) 

AeM mxn 

s.t. rank(A) = k . 
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函数等值线与约束曲面 
相切. 

可通过反证法证 明：若 
梯度 ▽/<>*) 与约束曲面 
不正交，则仍可在约束曲 
面上移动该点使函数值进 
一步下降. 


对等式约束， A 可能为 
正也可能为负. 


奇异值分解提供了上述问题的解 析解： 对矩阵 A 进行奇异值分解后，将矩 
阵 S 中的 r - A : 个最小的奇异值置零获得矩阵 Sfc ， 即仅保留最大的个奇异 
值，则 

A k = ( A .35) 

就是式 ( A .34) 的最优解，其中和 Vfc 分别是式 ( A .33) 中的前 k 列组成的矩 
阵.这个结果称为 Eckart - Young-Mirsky 定理. 


B 优化 

B .1 拉格朗日乘子法 

拉格朗日乘子法 (Lagrange multipliers ) 是一种寻找多元函数在一组约束下 
的极值的方法.通过引入拉格朗日乘子，可将有^个变量与 A : 个约束条件的最 
优化问题转化为具有 d + k 个变量的无约束优化问题求解. 

先考虑一个等式约束的优化问题.假定 x 为 d 维向量，欲寻找$的某个取 
值 x *， 使目标函数/»最小且同时满足 〆 4 =0的约束.从几何角度看，该问 
题的目标是在由方程 〆 W = 0确定的 d - 1维曲面上寻找能使目标函数 f { x ) 
最小化的点.此时不难得到如下结论： 

• 对于约束曲面上的任意点 a ?, 该点的梯度 Vg ( x ) 正交于约束曲面； 

• 在最优点目标函数在该点的梯度 ▽/(/) 正交于约束曲面. 

由此可知 5 在最优点 a :*， 如附图 B .1 所示，梯度和 ▽/» 的方向必相同 
或相反，即存在 A # 0使得 

V /( x *) + XVg ( x *) = 0 , ( B .1) 

A 称为拉格朗日乘子.定义拉格朗日函数 

L ( a ?, A ) = f ( x ) + Xg ( x ) , ( B .2) 

不难发现，将其对$的偏导数 ▽ aLb ， A ) 置零即得式 ( B .1), 同时，将其对 A 的 
偏导数 A ) 置零即得约束条件 〆 4 = 0. 于是，原约束优化问题可转化 
为对拉格朗日函数 L >， A ) 的无约束优化问题. 




( a ) 等式约束 


( b ) 不等式约束 


附图 B . 1拉格朗曰乘子法的几何含 义：在 （ a ) 等式约束 g ( x ) = 0或 （ b ) 不等式约束 
g ( x ) < 0下，最小化目标函数 f ( x ). 红色曲线表示 g ( x ) = 0构成的曲面，而其围成的 
阴影区域表示 〆 T ) <0. 

现在考虑不等式约束 g { x ) ^ 0,如附图 B . 1所示，此时最优点/或在 
g { x ) < 0的 K 域中，或在边界 ^0) = 0上.对于 9(^) < 0的情形，约束 
g ( x ) < 0不起作用，可直接通过条件 ▽/($)= 0来获得最 优点； 这等价于将 A 
置零然后对 VaLb ， A ) 置零得到最优点. g { x ) - 0的情形类似于上面等式约 
束的分析，但需注意的是，此时 ▽/(/) 的方向必与相反，即存在常数 
A > 0使得 V /( x *) + AV ^( x *) = 0. 整合这两种情形，必满足 A ^(^) = 0. 因此， 
在约束 g { x ) ^ 0下最小化 /( cc ), 可转化为在如下约束下最小化式 ( B .2) 的拉格 
朗日 函数： 


g{^) ^ 0 ; 

< A 彡0 ; ( B .3) 

、 ^j9ji x ) — 0 - 

式 ( B .3) 称为 Karush - Kuhn-Tucker (简称 KKT ) 条件. 

上述做法可推广到多个约束.考虑具有 m 个等式约束和 n 个不等式约束, 
且可行域 B C 非空的优化问题 

min f ( x ) ( B .4) 

X 

s . t . hi ( x ) = 0 (i = 1,. • • ， m ), 
gj{x) ^ 0 (j. = 1， ... .， tz) • 


引入拉格朗日乘子； V = ( Ai ， A 2 , ... ， A m ) T 和 M = ( m ， M2, ... ， Mn) T , 相应的拉格 
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朗日函数为 
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L(x,A,/x) = f{x) + X i h i( x ) + ^2 h9j{^) 

i=l j=l 

由不等式约束引入的 KKT 条件 (j = 1，2, ... ， n ) 为 


( B .5) 


9 j ( x ) < 0; 

彡 0 ; 

jijgj{x) — 0 


( B .6) 


在推导对偶问题时，常 
通过将拉格朗日乘子 
_ L (®， A ,/ Lt ) 对03求导并令 
导数为0,来获得对偶函数 
的表达形式. 


一 个优化问题可以从两个角度来考察，即“主问题” (primal problem ) 和 
“对偶问题” (dual problem ). 对主问题 ( B .4)， 基于式 ( B .5)， 其拉格朗日“对偶 
函数 ” （dual function ) T : R m xR n 定义为 


r (入, / x ) 二 inf 入， / i ) 

xgb 


感 ’㈤ + Z X i h ^ x ) + J2 ^9ji x ) 


( B .7) 


M 匕 o 表示 M 的分量均 若沄 e D ) 为主问题 ( B .4) 可行域中的点 5 则对任意 /i 匕 0和 A 都有 
为非负. 


純 ㈤ + _( x ) d 


( B .8) 


进而有 


= ^ ^ f ( x ) 


( B .9) 


若主问题 ( B .4) 的最优值为，，则对任意 M t 0和 A 都有 


r (入， 


( B .10) 


即对偶函数给出了主问题最优值的下界.显然，这个下界取决于 m 和 A 的值. 
于是， 一 个很自然的问 题是： 基于对偶函数能获得的最好下界是什么？这就引 
出了优化问题 
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这称为 Slater 条件. 


非标准二次规划问题中 
可以包含等式约束.注意 
到等式约束能用两个不等 
式约束来 代替； 不等式约 
束可通过增加松弛变量的 
方式转化为等式约束. 


max r (入， / la ) s . t . /x ^ 0 . ( B . ll ) 

入，妗 

式 ( B .11) 就是主问题 ( B .4) 的对偶向题，其中 A 和 M 称为“对偶变量” (dual 
variable ). 无论主问题 ( B .4) 的凸性如何，对偶问题 ( B .11) 始终是凸优化问题. 

考虑式 ( B .11) 的最优值 d *， 显然有 d * < 〆 ，这称为“弱对偶性” (weak 
duality ) 成立；若 d * = p *, 则称为“强对偶性” (strong duality ) 成立，此时由对 
偶问题能获得主问题的最优下界.对于一般的优化问题，强对偶性通常不成立. 
但是，若主问题为凸优化问题，如式 ( B .4) 中/ ㈤ 和仍 ㈤ 均为凸函数， hi ( x ) 为 
仿射函数 5 且其可行域中至少有一点使不等式约束严格成立，则此时强对偶性 
成立.值得注意的是，在强对偶性成立时,将拉格朗日函数分别对原变量和对偶 
变量求导 5 再并令导数等于零，即可得到原变量与对偶变量的数值关系.于是， 
对偶问题解决了，主问题也就解决了. 


B .2 二次规划 


二次规划 (Quadratic Programming ， 简称 QP ) 是一类典型的优化问题，包 
括凸二次优化和非凸二次优化.在此类问题中，目标函数是变量的二次函数，而 


约束条件是变量的线性不等式. 

假定变量个数为木约束条件的个数为 m ， 则标准的二次规划问题形如 


min 

X 

S . t . 



Qcc + c T x 


Ax ^ b , 


(B.12) 


其中 x 为 d 维向量 ， Q e R dxd 为实对称矩阵 ， A e R mxd 为实矩阵， 
c e 为实向量， Az < 6 的每一行对应一个约束. 

若 Q 为半正定矩阵，则式 ( B .12) 目标函数是凸函数，相应的二次规划是凸. 
二次优化 问题； 此时若约束条件 At < b 定义的可行域不为空，且目标函数在 
此可行域有下界，则该问题将有全局最小值.若 Q 为正定矩阵，则该问题有唯 
一的全局最小值.若 Q 为非正定矩阵，则式 CB .12) 是有多个平稳点和局部极小 
点的 NP 难问 题. 


常用的二次规划解法有椭球法 (ellipsoid method )、 内点法 (interior 
point )、 增广拉格朗日法 (augmented Lagrangian )、 梯度投影法 (gradient pro ¬ 
jection ) 等. 若 Q 为正定矩阵，则相应的二次规划问题可由椭球法在多项式时 
间内求解. 
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X 匕0表示 X 半正定. 


一阶方法仅使用目标函 
数的一阶导数，不利用其 
高阶导数. 


半正定规划 ( Semi-Definite Programming , 简称 SDP ) 是一类凸优化问题， 
其中的变量可组织成半正定对称矩阵形式，且优化问题的目标函数和约束都是 
这些变量的线性函数. 

给定 dxd 的对称矩阵 X 、 C , 

d d 

C . X = D D CijXij , ( B .13) 

i=l j=l 

若 = 1，2,…， m ) 也是 dxd 的对称矩阵， b { (i = 1，2,…， m ) 为 m 个实数， 
则半正定规划问题形如 

min C X ( B .14) 

s . t . A : • X = 6“ i = 1,2,..., m 
X^O . 

半正定规划与线性规划都拥有线性的目标函数和约束，但半正定规划中的 
约束 X 匕0是一个非线性、非光滑约束条件.在优化理论中，半正定规划具有 
一 定的一般性，能将几种标准的优化问题(如线性规划、二次规划 ;) 统一起来. 

常见的用于求解线性规划的内点法经过少许改造即可求解半正定规划问 
题，但半正定规划的计算复杂度较高，难以直接用于大规模问题. 

B .4 梯度下降法 

梯度下降法 (gradient descent ) 是一种常用的一阶 ( first - order ) 优化方法，是 
求解无约束优化问题最简单、最经典的方法之一. 

考虑无约束优化问题其中 f ( x ) 为连续可微函数.若能构造一 
个序列 a ; 1 , a ? 2 ,... 满足 

f ( x t+1 ) < fix 1 ), t = 0,1,2, ... ( B .15) 

则不断执行该过程即可收敛到局部极小点.欲满足式 ( B .15)， 根据泰勒展式有 

f(x + Acc ) ^ f ( x ) + Ax T Wf ( x ) , 


( B .16) 
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于是,欲满足 /(® + A ®) < f(x) y 可选择 
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每步的步长 w 可不同. 


L - Lipschitz 条件是指对 
于任意存在常数 L 使 
得 llv/OrOII 成立. 


求解极大值问题时亦称 
“坐标上升法” （ coordi ¬ 
nate ascent ). 


△ a ? = - 7 V /( a ?) , ( B .17) 

其中步长 7 是一个小常数.这就是梯度下降法. 

若目标函数/»满足一些条件，则通过选取合适的步长，就能确保通过梯 
度下降收敛到局部极小点.例如若 f ( x ) 满足 L - Lipschitz 条件，则将步长设置 
为 1/(2 L ) 即可确保收敛到局部极小点.当目标函数为凸函数时，局部极小点就 
对应着函数的全局最小点，此时梯度下降法可确保收敛到全局最优解. 

当目标函数/»二阶连续可微时，可将式 ( B .16) 替换为更精确的二阶泰勒 
展式，这样就得到了牛顿法 ( Newton’s method ). 牛顿法是典型的二阶方法，其 
迭代轮数远小于梯度下降法.但牛顿法使用了二阶导数 V 2 /0 r 0, 其每轮迭代中 
涉及到海森矩阵 ( A .21) 的求逆，计算复杂度相当高，尤其在高维问题中几乎不 
可行.若能以较低的计算代价寻找海森矩阵的近似逆矩阵，则可显著降低计算 
开销，这就是拟牛顿法 ( quasi-Newton method ). 

B.5 坐标下降法 

坐标下降法 (coordinate descent ) 是一种非梯度优化方法，它在每步迭代中 
沿一个坐标方向进行搜索，通过循环使用不同的坐标方向来达到目标函数的局 
部极小值. 

不妨假设目标是求解函数/»的极小值，其中 T = ( x u x 2 ,..., x d ) T G 
R d 是一个维向量.从初始点开始，坐标下降法通过迭代地构造序列 
a ? 0 ,® 1 ,® 2 ,... 来求解该问题, x t +1 的第 f 个分量构造为 

xl +1 = argmin /(>4 +1 ，…,《士士， y ， 巧 +1 ，… . ， #) • ( B .18) 

yGM 

通过执行此操作，显然有 

f ( x °) ^ /( x 1 ) > f ( x 2 ) ^ ( B .19) 

与梯度下降法类似,通过迭代执行该过程，序列能收敛到所期望 
的局部极小点或驻点 (stationary point ). 

坐标下降法不需计算目标函数的梯度，在每步迭代中仅需求解一维搜索问 
题,对于某些复杂问题计算较为简便.但若目标函数不光滑，则坐标下降法有可 
能陷入非驻点 ( non-stationaiy point ). 
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这里仅介绍连续均匀分 

布 • 


以瑞士数学家雅各布. 
伯努利_ (Jacob Bernoulli , 
1654-1705) 的名字命名. 


本节简要介绍几种常见概率分布.对于每种分布，我们将给出概率密度函 
数以及期望 E [.], 方差 var [.] 和协方差 covh •] 等几个主要的统计量. 

C.1.1 均匀分布 

均勾分布 (uniform distribution ) 是关于定义在区间 [ a , b ] (a < b ) 上连续变 
量的简单概率分布，其概率密度函数如附图 C .1 所示. 



p(x | a , 6) = U(x I a , b ) 


1 


b — a 


E[x 


var 


x 


a-\-b 
2 ； 
(b - a ) 2 
~~ 12 ^ 


( C .1) 

( C .2) 

( C .3) 


不难发现，若变量 t 服从均匀分布 U(x I 0, 1) 且 a < 6,则 a + (6 - a ): r 服 
从均匀分布丨 a ， b ). 


C.1.2 伯努利分布 

伯努利分布 (Bernoulli distribution ) 是关于布尔变量 ； r G {0, 1} 的概率分 
布，其连续参数 /i e [0, 1] 表示变量 x = 1的概率. 


P{x | fj) = Bern (: r I ") = fi x (l — /x) 1 — 工 ； 


(C.4) 
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附 录 


对于参数 A 二项分布 
的共轭先验分布是贝塔分 
布.共轭分布参见 C .2. 


对于参数多项分布 
的共扼先验分布是狄利 
克雷分布.共辄分布参见 
C .2. 


E $] = /x ; 
var [$] = / i(l — fi ). 

C .1.3 二 项分布 


( C .5) 

( C .6) 


二项分布 (binomial distribution ) 用以描述 iV 次独立的伯努_实验中有 m 
次成功(即 z = 1) 的概率，其中每次伯努利实验成功的概率为 M 6 [0, 1]. 

P(m | iV ,") = Bin(m | iV ,") = /i m (l — / 1 广 — m ; (C.7) 

( C .8) 
( C .9) 


E [: r ] = Nfi ; 
var [ a ;] = Nfji{l — fi ) • 


当 TV = 1 时，二项分布退化为伯努利分布. 


C .1.4 多项分布 


若将伯努利分布由单变量扩展为 d 维向量％其中而 e {0,1} 且: Ef =1 巧= 
1,并假 设以取 1的概率为仏 g 则将得到离散概率分布 


1 m ) : 

i=l 

( C .10) 

~ E [ xi ] : 

二 fM ' 

( C . ll ) 

var[xi = 

= — •> 

( C .12) 

cov [ xj , Xi - 

= I[j = ^] Mz • 

( C .13) 


在此基础上扩展二项分布则得到多项分布 (multinomial distribution ), 它 
描述了在 iV 次独立实验中有 次而 =1的概率. 




rrid I iV ， /x) = Mult(77ii, m 2 , … ，爪 d | # ， M) 

n^r ； 


N\ 


mil m2 ： 


m d \ 


( C .14: 


i=l 


E[mi] = Nfii ; 


(C.15) 
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var[m^] = Niii(l - ; 

cov[mj,m^] - —Nfijfii . 


(C.16) 

(C.17) 


Cl.5 贝塔分布 


贝塔分布 (Beta distribution) 是关于连续变量 // G [0,1] 的概率分布，它往 
两个参数 a > 0 和 6 > 0 确定，其概率密度函数如附图 C.2 所示 . 



附图 C . 2贝塔分布的概率密度函数 


I a ， 6) 


Beta(〆 I a, 6) = — fi) b — 1 


r ⑷ r(6) 


一丄 (l 一") 


E 


var 






B(a,b) 

a 

a b 


)-1 


ab 


[a + b) 2 (a + 6+1) 


其中 r(a) 为 Gamma 函数 



(C.18) 

(C.19) 

(C.20) 


(C.21) 


r ⑷ r(6) 

r(a + b) 


B[a ， b ) 为 Beta 函数 


B{a,b) 


(C.22) 
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附 录 


以德国数学家狄利克雷 
(1805—1859) 的名字命名. 


( 7 为标准差. 


当 


1时，贝塔分布退化为均匀分布. 


C .1.6 狄利克 雷分布 

狄利克雷分布 (Dirichlet distribution ) 是关于一组 d 个连续变量 G p ，1] 

的概率分布， J 2 i=i = 1 . 令 M = ( A 4; 以2;…； Md )， 参数《 =(叫; o ；2; …；叫)， 

〉0， 


p(/jL I a) = Dir(/x | a.) 


r ⑹ 


d 


r(ai).. .r(a^) 




-1 


i=l 


E 


var 




IM 


cov[iij, fli] 


Gi % 

5 

a 

Oil ( c ^ 一 Oii ) 

a 2 [a + 1) 

OLjOii 

a 2 (a + 1) 


( C .23) 


( C .24) 

( C .25) 

( C .26) 


当 d = 2 时，狄利克雷分布退化为贝塔分布. 

C .1.7 高 斯分布 

高斯分布 (Gaussian distribution ) 亦称正态分布 (normal distribution ), 是应 
用最为广泛的连续概率分布. 

对于单变量; r € (― oo , oc ), 高斯分布的参数为均值 /x G (― CO, oo ) 和方差 
( T 2 > 0. 附图 C .3 给出了在几组不同参数下高斯分布的概率密度函数. 


p(x | /u, a 2 ) = J\f(x I /i, a 
E[x] = fi ; 

var ㈣ =ex 2 • 


2 


1 


V 27 T ( J 2 


exp 


(x — fj) 2 
2cr 2 


( C .27) 

( C .28) 

( C .29) 


对于 d 维向量％多元高斯分布的参数为 d 维均值向量 m 和^ x d 的对称 
正定协方差矩阵 S . 


p(x | / X , S ) = M{x I / Ll , S ) 


t _exp < ~~(x — u) t E"~ 1 (x — a) 

^/(27r) d det{J：) 1 2 、 W W 


( C .30) 
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这里仅考虑高斯分布方 
差已知、均值服从先验的 
情形. 



附图 C . 3高斯分布的概率密度函数 


E [ x ] = /i ; (C.31) 

cov[x] = XI . (C.32) 

C.2 共轭分布 

假设变量 z 服从分布尸卜 | ㊀)，其中 e % 参 1 x = {xi,x 2 , … ，$ m } 为变 
量: r 的观测样本，假设参数㊀服从先验分布 n(0). 若由先验分布 n(©) 和抽样 
分布 p(x | 0) 决定的后验分布 f (© | x) 与 n(@) 是同种类型的分布，则称先 
验分布 11(0) 为分布 | ㊀）或 P(X | 0) 的共轭分布 (conjugate distribution). 

例如，假设 x 〜 Bern(^ \ ii ), X = { xi , X2 , • • • , x m } 为观测样本，元为观测 
样本的均值， M 〜 Beta(p | a， 6)，其中 a ， b 为 已知参数，则 /i 的后验分布 



X ) 0C Beta(/x | a, b ) P(X \ //) 




B ( a ， b ) 




m—mx 


l 


B(a + mx , b + m — rax 




a+mx—\ 


(1 一 M) 


b+m—mx—1 


Beta(^ I a \ b ') 


(C.33) 


亦为贝塔分布，其中 a f = a + m 元， b f ^ b-\-m — mx , 这意味着贝塔分布与伯努 
利分布共轭.类似可知，多项分布的共轭分布是狄利克雷分布，而高斯分布的共 
轭分布仍是高斯分布. 




















先验分布反映了某种先验信息，后验分布既反映了先验分布提供的信息、 
又反映了样本提供的信息.当先验分布与抽样分布共轭时，后验分布与先验分 
布属于同种类型，这意味着先验信息与样本提供的信息具有某种同一性.于 
是，若使用后验分布作为进一步抽样的先验分布，则新的后验分布仍将属于同 
种类型.因此，共轭分布在不少情形下会使问题得以简化.例如在式 ( C .33) 的 
例子中，对服从伯努利分布的事件 X 使用贝塔先验分布，则贝塔分布的参数值 
a 和6可视为对伯努利分布的真实情况(事件发生和不发生)的预估.随着“证 
据”（样本)的不断到来，贝塔分布的参数值从变化为 a + m 5,6 + m - m 无, 
且 a/(a + b ) 将随着 m 的增大趋近于伯努利分布的真实参数值元显然，使用共 
轭先验之后，只需调整 a 和6这两个预估值即可方便地进行模型更新. 

C .3 KL 散度 

KL 散度 ( Kullback-Leibler divergence ) ,亦称相对熵 (relative entropy ) 或信 
息散度 (information divergence ), 可用于度量两个概率分布之间的差异.给定两 
个概率分布 P 和 Q ， 二者之间的 KL 散度定义为 

这里假设两个分布均为 
连续型概率 分布； 对于离 
散型概率分布，只需将定 
义中的积分替换为对所有 

离散 值遍历求和. 其中 p ( x ) 和分别为 p 和 Q 的概率密度函数. 

KL 散 度满足 非负性 ，即 

KL ( P || Q ) ^ 0 , ( C .35) 

* . • »• 

当且仅当 P Q 时 KL ( P || Q ) = 0. 但是， KL 散度不满足对称性 ，即 

KL ( P || Q ) ^ KL ( Q || P ) , ( C .36) 

质度^?^ 四 个基本性 因此， KL 散度不是一个度量 (脈 tric ). 

若将 KL 散度 的定义 ( C .34) 展开， 可得 

poo poo 

KL ( P |] Q ) = / p ( x ) \ ogp ( x)dx — / p ( x ) logq ( x)dx 

J —oo J —oo 

= - H { P ) + H { P , Q ) , ( C .37) 

其中 H ( P ) 为熵 ( entropy ), H ( P , Q ) 为 P 和 Q 的交叉熵 (cross entropy ). 在信 


KL(P||Q) 


P ^ l ° g ^j dX J 


(C.34) 
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息论中，熵 H ( P ) 表示对来自 P 的随机变量进行编码所需的最小字节数，而交 
叉熵 H ( P , Q ) 则表示使用基于 Q 的编码对来自 P 的变量进行编码所需的字节 
数.因此， KL 散度可认为是使用基于 g 的编码对来自 P 的变量进行编码所需 
的“额外”字 节数； 显然，额外字节数必然非负，当且仅当 P = Q 时额外字节 
数为零. 




后 记 


写作本书的主因，是2016年准备在南京大学开设“机器学习”课.十五年前笔者曾主张开设此. 
课，但那时国内对机器学习闻之不多，不少人听到这个名字的第一反应是“学习什么机器?”学校估 
计学生兴趣不大，于是笔者开设了 “数据挖掘”这门名字听上去就觉得很有用的课.被评为省优秀 
研究生课程后，又给本科生单开了一门“数据挖掘导论”.这两门课很受欢迎，选修学生很多，包括 
不少外来蹭听生.虽然课上有一多半其实在讲机器学习，但笔者仍一直希望专开一门机器学习课, 
因笔者以为机器学习迟早会变成计算机学科的基础内容. 

、图灵奖得主 E . W . Dijkstra 曾说“计算机科学并不仅是关于计算机，就像天文学并不仅是关于 
望远镜”.正如天文学早期的研究关注如何制造望远镜，计算机科学早期研究是在关注如何令计算 
机运转.到了今天，建造强大的天文望远镜虽仍重要，但天文学更要紧的是“用”望远镜来开展研 
究.类似地，计算机科学发展至今，也该到了从关注“造”计算机转入更关注“用”计算机来认识 
和改造世界的阶段，其中最重要的无疑是用计算机对数据进行分析，因为这是计算的主要目的，而 
这就离不开机器学习.十多年前在国内某次重要论坛上笔者刚抛出此观点就被专家迎头指斥，但今 
日来看，甚至很多计算机学科外人士都已对机器学习的重大价值津津乐道，现在才开设机器学习基 
础课似乎已有点嫌晚了. 

1995年在南大图书馆偶然翻看了《机器学 习：通 往人工智能的途径》，这算是笔者接触机器学 
习的开始.那时机器学习在国内问津者寥，甚至连科研人员申请基金项目也无合适代码方向可报. 
周边无专家可求教，又因国内科研经费匮乏而几无国际交流，加之学校尚无互联网和电子文献库, 
能看到的最新文献仅是两年前出版且页数不全的某 IEEE 汇刊……可谓举步维艰，经历的困惑和陷 
阱不可胜数.笔者切身体会到，入门阶段接触的书籍是何等重要，对自学者尤甚.一本好书能让人少 
走许多弯路，材料不佳则后续要花费数倍精力方能纠偏.中文书当然要国人自己来写.虽已不需靠 
“写书出名”，且深知写教科书极耗时间精力，但踌躇后笔者仍决定动手写这本书，唯望为初学者 
略尽绵薄之力. 

有人说“一千个人眼中就有一千个哈姆雷特”，一个学科何尝不是如此.之所以不欲使用市面 
上流行的教科书(主要是英文的)，除了觉得对大多数中国学生来说中文教科书更便于学习，另一个 
原因则是希望从笔者自己的视角来展现机器学习. 

2013年中开始规划提纲，由此进入了焦躁的两年.该写哪些内容、先写什么后写什么、从哪个 
角度写、写到什么程度，总有千丝万缕需考虑.及至写作进行，更是战战兢兢，深恐不慎误人子弟. 
写书难，写教科书更难.两年下来，甘苦自知.子曰：“取乎其上，得乎其中；取乎其中，得乎其下”， 
且以顶级的态度，出一本勉强入得方家法眼之书. 
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机器学习 


本书贯穿以西瓜为例，一则因为瓜果中笔者尤喜西瓜，二则因为西瓜在笔者所生活的区域有个 
有趣的蕴义.朋友小聚、请客吃饭，菜已全而主未知，或馔未齐而人待走，都挺尴尬.于是聪明人发 
明了 “潜规 则”： 席终上西瓜.无论整盘抑或小碟，宾主见瓜至，则心领神会准备起身，皆大欢喜. 
久而久之，无论菜肴价格贵贱、场所雅鄙，宴必有西瓜.若将宴席比作(未来)应用系统，菜肴比作所 
涉技术，则机器学习好似那必有的西瓜，它可能不是最“高大上”的，但却是离不了的、没用上总 
觉得不甘心的. 

本书写作过程从材料搜集，到习题设计，再到阅读校勘，都得到了笔者的很多学生、同事和学 
术界朋友的支持和帮助，在此谨列出他们的姓名以致谢意(姓氏拼音序)：陈松灿，戴望州，高阳，高 
尉，黄圣君，黎铭，李楠，李武军，李宇峰，钱超，王魏，王威廉，吴建鑫，徐淼，俞扬，詹德川，张利军， 
张敏灵 ，朱 军.书稿在 LAMDA 组学生2015年暑期讨论班上 试讲， 高斌斌、郭翔宇、李绍园、钱 
鸿、沈芷玉、叶翰嘉、张腾等同学又帮助发现了许多笔误.特别感谢李楠把笔者简陋的手绘图转变 
为精致的插图，俞扬帮助调整排版格式和索引，刘冲把笔者对封面设计的想法具体表现出来. 

中国计算机学会终身成就奖得主、中国科学院院士陆汝钤先生是我国人工智能事业的开拓者 
之一，他在1988年和1996年出版的《人工智能》（上、下册)曾给予笔者很多启发.承蒙陆老师厚 
爱在百忙中为本书作序，不胜惶恐之至.陆老师在序言中提出的问题很值得读者在本书之后的进阶 
学习与研究中深思. 

感谢清华大学出版社薛慧老师为本书出版所做的努力.十二年前笔者入选国家杰出青年科 
学基金时薛老师即邀著书 5 笔者以年纪尚轻、学力未逮婉辞.十年前“机器学习及其应用”研讨 
会 ( MLA ) 从陆汝钤院士肇始的复旦大学智能信息处理重点实验室移师南京，参会人数从复旦最初的 
20人，发展到2010年400余人，此后在清华、复旦、西电达800余人，今年再回南大竟至1300余 
人，场面热烈. MLA 倡导“学术至上、其余从简”，不搞繁文缛节，参会免费.但即便如此，仍有 
很多感兴趣的师生因旅费不菲而难以参加.于是笔者提议每两年以《机器学习及其应用》为题出版 
一本报告选集以飨读者.这个主意得到了薛老师、陆老师以及和笔者一起长期组织 MLA 、 去年因 
病去世的王珏老师的大力支持.此类专业性学术文集销量不大，出版社多半要贴钱.笔者曾跟薛老 
师说，自著的第一本中文书必交由薛老师在清华出版，或可稍为出版社找补.转眼《机器学习及其 
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分包括第4 〜 10章，介绍一些经典而常用的机器学习方法；第3部分包括第11 〜 16章，介绍一些进阶 
知识.前3章之外的后续各章均相对独立，读者可根据自己的兴趣和时间情况选择使用.根据课时情 
况， 一 个学期的本科生课程可考虑讲授前9章或前10 章; 研究生课程则不妨使用全书. 

书中除第1章外，每章都给出了十道习题.有的习题是帮助读者巩固本章学习，有的是为了引导读 
者扩展相关知识. 一 学期的一般课程可使用这些习题，再辅以两到三个针对具体数据集的大作业.带 
星号的习题则有相当难度，有些并无现成答案，谨供富有进取心的读者启发思考. 

本书在内容上尽可能涵盖机器学习基础知识的各方面，但作为机器学习入门读物且因授课时间的 
考虑，很多重要、前沿的材料未能覆盖，即便覆盖到的部分也仅是管中窥豹，更多的内容留待读者在 
进阶课程中学习.为便于有兴趣的读者进一步钻研探索，本书每章均介绍了一些阅读材料，谨供读者 
参考. 

笔者以为，对学科相关的重要人物和事件有一定了解，将会增进读者对该学科的认识.本书在每 
章最后都写了一个与该章内容相关的小故事，希望有助于读者增广见闻，并且在紧张的学习过程中稍 
微放松调剂一下. 

书中不可避免地涉及大量外国人名，若全部译为中文，则读者在日后进一步阅读文献时或许会对 
不少人名产生陌生感，不利于进一步学习.因此，本书仅对一般读者耳熟能详的名字如“图灵”等加 
以直接使用，对故事中的一些主要人物给出了译名，其他则保持外文名. 

机器学习发展极迅速，目前已成为一个广袤的学科，罕有人士能对其众多分支领域均有精深理解. 
笔者自认才疏学浅，仅略知皮毛，更兼时间和精力所限，书中错谬之处在所难免，若蒙读者诸君不吝告 
知，将不胜感激. 


周志华 

2015年6月 





在人工智能界有一种说法，认为机器学习是人工智能领域中最能够体现智能的一个分支.从历史 
来看，机器学习似乎也是人工智能中发展最快的分支之一.在二十世纪八十年代的时候，符号学习可 
能还是机器学习的主流，而自从二十世纪九十年代以来，就一直是统计机器学习的天下了.不知道是 
否可以这样 认为： 从主流为符号机器学习发展到主流为统计机器学习，反映了机器学习从纯粹的理论 
研究和模型研究发展到以解决现实生活中实际问题为目的的应用研究，这是科学研究的一'种进步.有 
关机器学习的专著国内出版的不是很多.前两年有李航教授的《统计学习方法》出版，以简要的方式 
介绍了一批重要和常用的机器学习方法.此次周志华教授的鸿篇巨著《机器学习》则全面而详细地介 
绍了机器学习的各个分支，既可作为教材，又可作为自学用书和科研参考书. 

翻阅书稿的过程引起了一些自己的思考，平时由于和机器学习界的朋友接触多了，经常获得一些 
道听途说的信息以及专家们对机器学习现状及其发展前途的评论.在此过程中，难免会产生一些自己 
的疑问.我借此机会把它写下来放在这里，算是一种“外行求教机器学习”. 

问题一：在人工智能发展早期，机器学习的技术内涵几乎全部是符号学习.可是从二十世纪九十 
年代开始，统计机器学习犹如一匹黑马横空出世，迅速压倒并取代了符号学习的地位.人们可能会问: 
在满目的统计学习期刊和会议文章面前，符号学习是否被彻底忽略7?它还能成为机器学习的研究对 
象吗？它是否将继续在统计学习的阴影里生活并苟延残喘？对这个问题有三种可能的 答案： 一 是告诉 
符号学习：“你就是该退出历史舞台，认命吧！”二是告诉统计学习：“你的一言堂应该关门了！”单纯 
的统计学习己经走到了尽头，再想往前走就要把统计学习和符号学习结合起来.三是事物发展总会有 
“三十年河东，三十年河西”的现象，符号学习还有“翻身”的日子.第一种观点我没有听人明说过， 
但是我想恐怕有可能已经被许多人默认了.第二种观点我曾听王珏教授多次说过.他并不认为统计学 
习会衰退，而只是认为机器学习已经到了一个转折点，从今往后，统计学习应该和知识的利用相结合, 
这是一种“螺旋式上升，进入更高级的形式”，否则统计学习可能会停留于现状而止步不前.王珏教 
授还 认为： 进入转折点的标志就是 Koller 等的《概率图模型》一书的出版.至于第三种观点，恰好我 
收到老朋友，美国人工智能资深学者、俄亥俄大学 Chandrasekaran 教授的来信,他正好谈起符号智能 
被统计智能“打压”的现象，并且正好表达了河东河西的观点.我请求他允许我把这段话引进正在撰 
写的序言中，他爽快地同意了，仅仅修改了几处私人通信的口吻.全文 如下： “最近几年,.人工智能在 
很大程度上集中于统计学和大数据.我同意由于计算能力的大幅提高，这些技术曾经取得过某些令 
人印象深刻的成果.但是我们完全有理由相信，虽然这些技术还会继续改进、提高，总有一天这个领 
域(指 AI ) 会对它们说再见，并转向更加基本的认知科学研究.尽管钟摆的摆回去还需要一段时间，我 
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相信定有必要把统计技术和对认知结构的深刻理解结合起来看来， Chandrasekaran 教授也并不认 
为若干年以后 AI 真会回到河西，他的意见和王珏教授的意见基本一致，但不仅限于机器学习，而是涉 
及整个人工智能领域.只是王 I 玉教授强调知识，而 Chandrasekaran 教授强调更加基本的“认知”. 

问 题二： 王珏教授认为统计机器学习不会“一路顺风”的判 据是： 统计机器学习算法都是基于样 
本数据独立同分布的假设.但是自然界现象千变万化，王珏教授认为“哪有那么多 独立向 分布?”这 
就引来了下一个问题：“独立同分布”条件对于机器学习来讲真是必需的吗？独立同分布的不存在一 
定是一个不可逾越的障碍吗？无独立同分布条件下的机器学习也许只是一个难题，而不是不可解问 
题.我有一个“胡思乱想”，认为前些时候出现的“迁移学习”也许会对这个问题的解决带来一线曙 
光.尽管现在的迁移学习还要求迁移双方具备“独立同分布”条件，但是不同分布之间的迁移学习， 
同分布和异分布之间的迁移学习也许迟早会出现？ 

问题三：近年来出现了一些新的动向，例如“深度学习”、“无终止学习”等等，社会上给予了 
特别关注，尤其是深度学习.但它们真的代表了机器学习的新的方向吗？包括本书作者周志华教授在 
内的一些学者 认为： 深度学习掀起的热潮也许大过它本身真正的贡献，在理论和技术上并没有太多的 
创新，只不过是由于硬件技术的革命，计算机的速度大大提高了，使得人们有可能采用原来复杂度很 
高的算法，从而得到比过去更精细的结果.当然这对于推动机器学习应用于实践有很大意义.但我们 
不禁要斗胆问一句：深度学习是否又要取代统计学习了？事实上，确有专家已经感受到来自深度学习 
的压力，指出统计学习正在被深度学习所打压，正如我们早就看到的符号学习被统计学习所打压.不 
过我觉得这种打压还远没有强大到像统计学习打压符号学习的程度.这一是因为深度学习的“理论创 
新”还不明显；二是因为目前的深度学习主要适合于神经网络，在各种机器学习方法百花盛开的今天, 
它的应用范围还有限，还不能直接说是连接主义方法的回归；三是因为统计学习仍然在机器学习中被 
有效地普遍采用，“得道多助” ，想抛 弃它不容易. 

问题四：机器学习研究出现以来，我们看到的主要是从符号方法到统计方法的演变，用到的数学主 
要是概率统计.但是，数学之大，就像大海.难道只有统计方法适合于在机器学习方面应用吗？当然， 
我们也看到了一些其他数学分支在机器学习上的应用的好例子，例如微分几何在流形学习上的应用, 
微分方程在归纳学习上的应用.但如果和统计方法相比，它们都只能算是配角.还有的数学分支如代 
数可能应用得更广，但在机器学习中代数一般是作为基础工具来使用，例如矩阵理论和特征值理论. 
又如微分方程求解最终往往归结为代数问题求解.它们可以算是幕后 英雄： “出头露面的是概率和统 
计，埋头苦干的是代数和逻辑”.是否可以想象以数学方法为主角，以统计方法为配角的机器学习理 
论呢？在这方面，流形学习已经“有点意思”了，而彭实戈院士的倒排随机微分方程理论之预测金融 
走势，也许是用高深数学推动新的机器学习模式的更好例子.但是从宏观的角度看，数学理论的介入 
程度还远远不够.这里指的主要是深刻的、现代的数学理论，我们期待着有更多数学家的参与，开辟 
机器学习的新模式、新理论、新方向. 
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问 题五： 上一个问题的延续：符号机器学习时代主要以离散方法处理问题，统计机器学习时代主 
要以连续方法处理问题.这两种方法之间应该没有一条鸿沟.流形学习中李群、李代数方法的引入给 
我们以很好的启示.从微分流形到李群，再从李群到李代数，就是一个沟通连续和离散的过程.然而， 
现有的方法在数学上并不完美.浏览流形学习的文献可知，许多论文直接把任意数据集看成微分流形， 
从而就认定测地线的存在并讨论起降维来了.这样的例子也许不是个别的，足可说明数学家介入机器 
学习研究之必要. 

问题六：大数据时代的出现，有没有给机器学习带来本质性的影响？理论上讲，似乎“大数据”给 
统计机器学习提供了更多的机遇，因为海量的数据更加需要统计、抽样的方法.业界人士估计，大数 
据的出现将使人工智能的作用更加突出.有人把大数据处理分成三个 阶段： 收集、分析和预测.收集 
和分析的工作相对来说已经做得相当好了，现在关注的焦点是要有科学的预测，机器学习技术在这里 
不可或缺.这一点大概毋庸置疑.然而，同样是使用统计、抽样方法，同样是收集、分析和预测，大数 
据时代使用这类方法和以前使用这类方法有什么本质的不同吗？量变到质变是辩证法的一个普遍规 
律.那么，从前大数据时代到大数据时代，数理统计方法有没有发生本质的变化？反映到它们在机器学 
习上的应用有无本质变化？大数据时代正在呼唤什么样的机器学习方法的产生？哪些机器学习方法 
又是由于大数据研究的驱动而产生的呢？ 

以上这些话也许说得远了，我们还是回到本书上来.本书的作者周志华教授在机器学习的许多领 
域都有出色的贡献，是中国机器学习研究的领军人物之一，在国际学术界有着很高的声誉.他在机器 
学习的一些重要领域，例如集成学习、半监督学习、多示例和多标记学习等方面都做出了在国际上有 
重要影响的工作，其中一些可以认为是中国学者在国际上的代表性贡献.除了自身的学术研究以外， 
他在推动中国的机器学习发展方面也做了许多工作.例如他和不久前刚过世的王珏教授从2002年开 
始，组织了系列化的“机器学习及其应用”研讨会.初在复旦，后移至南大举行，越办越兴旺，从单一 
的专家报告发展到专家报告、学生论坛和张贴论文三种方式同时举行，参会者从数十人发展到数百 
人，活动搞得有声有色，如火如荼.最近更是把研讨会推向全国髙校轮流举行.他和王 i 玉教授紧密合 
作，南北呼应，人称“南周北王”.王珏教授的离去使我们深感悲伤.令我们欣慰的是国内不但有周志 
华教授这样的机器学习领军人物，而且比周教授更年轻的许多机器学习青年才俊也成长起来了.中国 
的机器学习大有希望. 


中国科学院数学与系统科学研究院 
2015年8月于北京 




主要符号表 


X 标量 

X 向量 

A 矩阵 

I 单位阵 

Y 样本空间或状态空间 

V 概率分布 

D 数据样本（数据集） 

U 假设空间 

H 假设集 

£ 学习算法 

(•,•，•） 行向量 

列向量 

◦ T 向量或矩阵转置 

> , 

{• * * } 集合 

!{•••}! 集合 f 中元素个数 

|| - Up l p 范数， p 缺省时为 l 2 范数 

p (-), p (- I •) 概率质量函数,条件概率质量函数 

p (-), V {-1 •) 概率密度函数，条件概率密度函数 

E . 〜卅 /(•)] 函数/ ㈠ 对 • 在分布力下的数学期望；意义明确时将 

省略 P 和(或） • 

sup (-) 上确界 

1(*) 指示函数，在 • 为真和假时分别取值为1，0 

sign ㈠ 符号函数，在 • < 0, = 0, > 0时分别取值为—1，0,1 
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